OpenAI一句“文艺复兴”，让图像生成正式告别玩具时代

AI PM 编辑部 · 2026年05月14日 · 49 阅读 · AI/人工智能

模型训练 Token 文本生成图像生成式AI AI Agent 提示工程 AI应用 ChatGPT DALL-E OpenAI

正在加载视频...

视频章节

如果说 DALL·E 只是“能画”，那 OpenAI 最新一代图像模型已经开始“能干活”了。在最新一期 OpenAI Podcast 中，研究员和产品负责人罕见地同时承认：这是一次范式跃迁，而不是常规升级。为什么他们敢用“文艺复兴”来形容？这期播客给出了非常具体的答案。

OpenAI一句“文艺复兴”，让图像生成正式告别玩具时代

如果说 DALL·E 只是“能画”，那 OpenAI 最新一代图像模型已经开始“能干活”了。在最新一期 OpenAI Podcast 中，研究员和产品负责人罕见地同时承认：这是一次范式跃迁，而不是常规升级。为什么他们敢用“文艺复兴”来形容？这期播客给出了非常具体的答案。

从“石器时代”到“文艺复兴”，这不是修辞

播客一开场，主持人 Andrew Mayne 就抛出了一个极具杀伤力的比喻：“如果 DALL·E 是图像生成的石器时代，那 ImageGen 2.0 就是文艺复兴。”这不是市场部的夸张，而是内部共识。

在 OpenAI 团队看来，这一代模型第一次同时满足了三个过去很难兼得的条件：艺术审美、科学准确性，以及工程级可控性。换句话说，它不只是“更好看”，而是开始能承载设计、建筑、科研表达等严肃场景。

一个细节很说明问题：团队在内部评估时，并不是问“有没有明显 bug”，而是反复追问一个问题——“这是不是一个范式变化（step change）？”当他们看到改进后的文本渲染、多语言支持、以及接近真实摄影的画面时，答案逐渐变得明确：ImageGen 1 的上限已经被彻底突破了。

50% 使用量增长背后：用户终于不只是“玩”了

模型上线短短两周，使用量增长超过 50%。但真正让团队兴奋的，并不是数字本身，而是用户的反馈方式发生了变化。

过去，图像生成的典型反馈是：“这个好玩”“这个风格很酷”。而现在，越来越多的评价变成了：“这是我见过最高保真度的静态图像模型”“终于可以拿来当生产工具了”。

Kenji Hata 提到一个关键转折点：当生成结果第一次“看起来就像一张很好的真实照片”时，团队意识到，门槛被跨过去了。这种跨越不是靠堆参数，而是靠一系列看似枯燥、但极其重要的工程决策——更高的 token 效率、针对审美与真实感的后训练（post-training），以及对“品味（taste）”的系统性优化。

这也解释了为什么这代模型在像素风、复杂提示遵循度（promptability）等看似小众的测试中表现突出：它开始理解“你想要什么样的画”，而不是“你大概描述了什么”。

从方图到 360°，比例自由带来的想象力爆炸

一个在播客中被轻描淡写提到、但实际上影响深远的能力是：模型可以稳定生成任意宽高比的图像，包括 360 度全景。

这听起来像是“工程细节”，但它直接改变了使用场景。全景图意味着什么？意味着你可以把生成结果直接放进一个 360 世界中浏览，而不是只在二维画布上欣赏。

更重要的是，这种比例自由，和 variable binding（变量绑定）能力的提升结合在一起，让图像生成第一次具备了“工作流友好性”。你不再需要为每一张图重新调教 prompt，而是可以在一个逻辑结构下稳定地产出系列化结果。

这也是为什么团队观察到，图像生成正在从“娱乐工具”向“生产力工具”迁移——它开始适配流程，而不是打断流程。

最被低估的变化：AI 开始学会“不完美”

在讨论用户创作时，Adele Li 提到了一个耐人寻味的现象：越来越多人故意让模型画得“像 Microsoft Paint”“像蜡笔”“像童年”。

这听起来像倒退，实则是能力提升后的必然结果。只有当模型足够强、足够真实，人们才会开始追求“不完美”“手感”和“怀旧”。这是一种新的自我表达方式，而不是对 AI 的否定。

团队也明确表示，他们在规划中不再追求“替代艺术家”，而是把 ImageGen 定位为“creative amplifier（创意放大器）”。通过更好地处理模糊提示、与艺术家深度共创，模型正在把控制权一点点交还给人类。

在教育和研究领域，这种变化同样明显：个性化学习素材、信息图、内部演示文稿，开始大量使用生成图像，而不是图库。原因很简单——它终于“又快又对”。

真正的下一步：当 ImageGen 遇上 Agent 和 Codex

播客后半段，Kenji 提到一个看似随口、但信息量极大的判断：这是第一次，ImageGen 明显站在了与 Codex 交汇的路口。

具体表现是什么？可复用的 sprite sheets、连贯的漫画分镜、角色一致性的长期保持。这些都不是单张图像的能力，而是“系统性创作”的前提。

在 OpenAI 的设想中，图像模型最终会成为 creative agent 的一部分：它可能是你的个人室内设计师，也可能是你团队里的视觉合作者。关键不在于它能画多好，而在于它能否长期理解你的偏好，并融入你的专业流程。

Adele 给出的实用建议也很值得玩味：别急着把 prompt 写死，试试开放式描述、极简风格，再配合 ImageGen 的“thinking mode”。你会发现，模型给你的回馈，已经不只是执行，而是共创。

总结

这期播客真正值得 AI 从业者反复回味的，并不是某个参数提升，而是一个信号：图像生成正在从“能力展示”阶段，进入“体系化应用”阶段。对个人而言，这意味着你可以开始把它当成生产工具，嵌入工作流；对团队而言，这是重构设计、教育、内容生产流程的窗口期。一个值得思考的问题是：当图像、代码和 Agent 开始融合，你的岗位，是否已经准备好接住这种变化？

关键词：图像生成， OpenAI， ImageGen 2.0，生成式AI， AI Agent

事实核查备注： 1. ImageGen 2.0 被比喻为“文艺复兴”的原话语境；2. 模型上线两周使用量增长超过 50% 的具体时间范围；3. Kenji Hata 与 Adele Li 在 OpenAI 的职位与入职时间；4. 有关 token 效率、post-training 侧重点的表述是否为播客原意；5. ImageGen 与 Codex 交汇的描述是否为前瞻性判断而非既成事实

返回文章列表