Gemini 联席负责人罕见摊牌：世界模型不是视频生成，Agent 才是终局

AI PM 编辑部 · 2026年05月22日 · 26 阅读 · AI/人工智能

Noam Shazeer 强化学习推理多模态深度学习世界模型 AI Agent AI芯片计算机视觉通用人工智能

正在加载视频...

视频章节

如果你还把世界模型当成“更逼真的视频生成”，那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中，把 Google 真正押注的路线讲得异常直白：多模态只是起点，世界模型、可控模拟、Agent 与持续学习，才是下一轮分水岭。

Gemini 联席负责人罕见摊牌：世界模型不是视频生成，Agent 才是终局

如果你还把世界模型当成“更逼真的视频生成”，那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中，把 Google 真正押注的路线讲得异常直白：多模态只是起点，世界模型、可控模拟、Agent 与持续学习，才是下一轮分水岭。

一个反直觉的判断：世界模型≠视频模型

访谈一上来，最容易被忽略、但也最关键的一点是：Oriel 明确把“世界模型”与传统视频生成模型切开了。

在很多从业者眼里，世界模型似乎就是“更长、更稳、更物理一致的视频生成”。但 Oriel 的定义更激进——世界模型不是为了生成好看的视频，而是一个可操控、可干预、可预测的世界渲染与模拟系统。

这意味着两个根本差异：第一，目标不是像素相似度，而是因果一致性；第二，模型不是被动播放，而是能响应行动、做反事实推演。也正因为如此，像 Omni 这样的系统，在 Google 内部被直接视为机器人、自动驾驶和规划系统的基础设施，而不是内容模型。

这其实解释了一个长期困惑的问题：为什么 Google 在视频生成上看起来并不急于“刷榜”？因为他们要的不是一个更强的生成器，而是一个能被 Agent 调用的“可计算世界”。

多模态不是堆数据，而是知识获取的分工

Oriel 对多模态的态度同样务实，甚至有点“去神秘化”。他并没有把多模态包装成某种必然的终极形态，而是把语言与视觉视为两种互补的知识获取通道。

语言的优势在于高密度、可压缩、显式知识；视觉和视频的价值，则在于那些“人类默认不说出来”的世界规律——物体如何相互作用、连续性如何保持、物理约束如何隐含在运动中。

访谈中一个非常有价值的讨论是：视觉或视频是否会迎来自己的“GPT 时刻”？Oriel 的回答并不乐观，也不悲观——纯视觉训练当然能学到大量世界结构，但在概念抽象与符号对齐上，难度远高于语言。

这也是为什么 Gemini 从一开始就坚持联合建模，而不是走“先视觉、后语言”的路线。不是因为这样更炫，而是因为这是目前看来获取世界知识效率最高的组合。

机器人不是数据问题，而是规划问题

谈到机器人，Oriel 把很多人期待的“数据爆炸式突破”泼了一盆冷水。

他承认仿真数据、现实数据的结合正在快速进步，但真正卡住机器人的，并不只是感知或控制，而是规划层面的世界理解：模型是否真的知道“下一步会发生什么”，以及“如果我换一种做法，结果会怎样”。

这正是世界模型被寄予厚望的原因。与其让机器人在真实世界里反复试错，不如先在一个高保真的、可控的模拟世界中完成大部分推演。

这里的关键不在于物理引擎有多精确，而在于模型是否能学会抽象的因果结构。Oriel 的潜台词很清楚：当世界模型足够好时，机器人进步的瓶颈会从硬件转向认知。

Agent 的真问题：不是能力，而是系统稳定性

从 Spark 等消费级 Agent 谈起，话题自然过渡到一个更现实的问题：为什么 Agent 看起来“很强”，却经常不可靠？

Oriel 的答案并不讨喜——问题往往不在模型，而在我们围绕模型搭的系统。他提到，当前大量 Agent 系统依赖复杂的手工 scaffolding：规则、状态机、异常处理逻辑层层叠加。

但他同时抛出了一个更具争议性的判断，呼应了经典的“苦涩教训”：这些手工结构，长期来看很可能会被模型自己学会并生成。

真正困难的，是长程任务下的稳定性与可恢复性。这也是为什么 Google 在 Agent 上强调“系统设计与模型能力协同演进”，而不是指望一次模型升级解决所有问题。

记忆、强化学习与自我改进的边界

在更偏技术的部分，Oriel 系统性地拆解了“记忆”这个被反复提起却常被混用的概念：工作记忆、情景记忆，以及类似文件系统的外部记忆。

一个非常实用的观点是：非参数化记忆在真实服务和规模化部署中，往往比塞进模型权重里更可行。这不是理论问题，而是工程与成本问题。

谈到后训练与强化学习，他也给出了相当克制的评价。RL 在数学和编程中之所以有效，很大程度来自可验证性；一旦进入开放世界，奖励定义和数据效率就会迅速成为瓶颈。

至于“模型是否能真正创新”，Oriel 并没有给出煽动性的结论，而是把问题拆解为：如何评估科学创造力，以及自我改进是否能突破人类研究者在时间和物理上的限制。

总结

这场访谈最值得反复回味的，不是某个具体产品，而是 Google 对“下一阶段 AI”的整体判断：从模型能力，转向世界建模、系统设计与持续学习的协同。如果你在做多模态、Agent 或机器人，这意味着两个行动建议：第一，别只盯着生成质量，开始问模型是否“可操控、可预测”；第二，少迷信手工系统，多思考哪些结构应该交给模型自己学。真正的分水岭，可能不在下一个 benchmark，而在你是否已经站在“世界模型 + Agent”的坐标系里思考问题。

关键词： Gemini，世界模型，多模态， AI Agent，强化学习

事实核查备注：需要核查：Oriel Vignal 的正式职称与 Gemini 联席负责人身份；Omni 被称为世界模型的具体表述；Spark 是否为 Google 发布的消费级 Agent；Noam Shazeer 在 Gemini 项目中的角色；访谈中关于 AGI 时间表的原话表述。

返回文章列表