当ChatGPT重新点燃图像生成的“惊奇感”

AI PM 编辑部 · 2025年03月27日 · 5 阅读 · AI/人工智能

强化学习 AI绘画文本生成图像大语言模型多模态生成式AI 人类反馈强化学习 GPT-4 ChatGPT OpenAI

正在加载视频...

视频章节

这期《The AI Daily Brief》围绕OpenAI最新图像生成能力展开，探讨了为什么许多人重新找回了对AI绘画的兴奋感。文章不仅解释了背后的技术转向，也讲清了OpenAI与Google竞逐中的策略差异，以及多模态模型为何可能成为下一阶段的关键。

当ChatGPT重新点燃图像生成的“惊奇感”

这期《The AI Daily Brief》围绕OpenAI最新图像生成能力展开，探讨了为什么许多人重新找回了对AI绘画的兴奋感。文章不仅解释了背后的技术转向，也讲清了OpenAI与Google竞逐中的策略差异，以及多模态模型为何可能成为下一阶段的关键。

为什么“第一次震撼”又回来了

这一段之所以重要，是因为它解释了情绪变化本身：为什么已经被AI图像“惯坏”的人，仍然会再次被震撼。演讲者开篇回忆了自己的AI入门经历——真正让他上瘾的，并不是ChatGPT，而是早期的图像生成器。他直言：“当年真正把我拉进AI世界的，是图像生成。”

在视频中，他将这种感觉与最近OpenAI和Google的“对撞式发布”联系起来。两家公司几乎同时更新模型，而这一次，图像生成不再只是一个附属功能，而像是一次系统级升级。演讲者反复强调，这种升级带来的不是参数层面的进步，而是“体验层面的断代”。

这里的独特洞见在于，他并没有把注意力放在谁的模型更强，而是指出：真正稀缺的是“惊奇感”。过去一年，AI绘画在很多人眼中已经变得可预测、套路化，而这次更新让人重新意识到，模型仍然能做出超出预期的东西。这种心理层面的变化，往往比任何跑分更重要。

他用一句话概括这种状态：“我们真的处在一次大升级之中。”这不是技术公告的总结，而是一个老用户重新被打动后的判断。

OpenAI的转向：让图像成为语言模型的“原生能力”

这一节的关键在于理解OpenAI的战略变化。视频中引用了OpenAI官方博客的一段话：“我们一直认为，图像生成应该是语言模型的一项主要能力。”这句话标志着一个明确转向：不再是外挂式的图像模型，而是由大语言模型本身来承担图像理解与生成。

演讲者解释说，基于GPT‑4的系统现在可以分析用户上传的图像，并将其中的细节无缝融入上下文，用来指导后续的图像生成。换句话说，模型不只是‘看过图’，而是真的把图像当成上下文的一部分。这是多模态（文本、图像等多种输入输出形态统一建模）的核心价值。

观众的即时反应也被当作一个故事讲出来。Every创始人Dan Shipper在社交平台上的玩笑式评价被引用：“强烈建议把你岳父变成一个‘欧莱雅风格’的形象，效果好到离谱，而且非常健康向上。”这个例子看似轻松，却点出了新系统的优势——对具体人物特征的稳定理解与复现。

在演讲者看来，这种稳定性正是过去许多图像模型缺失的部分，也是用户重新感到‘可靠’的原因。

从RLHF到多模态：底层机制发生了什么变化

理解技术底层，才能明白为什么这次进步来得如此明显。演讲者用相对通俗的方式提到，人类反馈强化学习（RLHF）在这里仍然扮演着关键角色。RLHF指的是：通过人类对模型输出的评价，不断强化更符合人类偏好的行为。

他说得很直接：“强化学习从人类反馈中，把智能拉了出来，并且把它打磨得更精细。”这并不是新技术，但当它被用于多模态系统时，效果被放大了。模型不只是学会‘画得像’，而是学会‘什么样的图更符合人类预期’。

视频中还提到了一场业内争论：在有人宣称‘扩散模型已死’之后，立刻有人反驳。演讲者并没有站队，而是指出一个更重要的变化——多模态图像生成允许大语言模型直接参与输出控制，从而获得对图像的“细粒度控制”。

这意味着，语言不再只是提示词，而是成为真正的生成引擎。这种结构性变化，才是能力跃迁的根本原因。

OpenAI对Google：竞赛还在加速，而不是放缓

如果只看OpenAI，这个故事并不完整。演讲者特意提醒观众：这一天并不只有一个发布。Google同样公布了新的进展，而且节奏并没有慢下来。他感叹道：“似乎没有任何东西能让这一切慢下来。”

这里的转折在于，原本可以把视频结束在‘OpenAI赢麻了’，但演讲者选择追问：如果从更长的时间尺度看，策略是否可能存在偏差？当所有注意力都集中在一次次能力展示上，真正的竞争可能转向生态、整合和用户习惯。

他抛出一个开放式问题：这究竟是一个‘OpenAI对抗Google’的故事，还是一个关于整个行业同时进入新阶段的故事？答案并未给出，但这种不确定性本身，正是当前AI行业的真实状态。

对观众而言，这种视角提醒我们，不要被单次发布迷惑，而要观察长期结构性的变化。

总结

这期视频的价值，不在于宣布了某个具体功能，而在于它捕捉到了行业情绪的转折点：AI图像生成再次让人感到惊奇。通过多模态整合、RLHF的深化应用，以及OpenAI与Google的持续竞逐，我们正在进入一个语言模型直接“掌控”视觉输出的新阶段。对普通用户而言，这意味着体验的飞跃；对从业者而言，则意味着旧假设需要被重新审视。

关键词：生成式AI， AI绘画，多模态模型， GPT-4， OpenAI与Google

事实核查备注：视频来源：《ChatGPT Brings Wonder Back to Image Generation》，The AI Daily Brief，2025-03-27；涉及公司：OpenAI、Google；涉及产品/技术：ChatGPT、GPT-4、多模态、人类反馈强化学习（RLHF）；引用原话均来自视频转述或主播引用的公开评论。

返回文章列表