Gemini 联席负责人罕见摊牌:世界模型不是视频生成,Agent 才是终局
正在加载视频...
视频章节
如果你还把世界模型当成“更逼真的视频生成”,那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中,把 Google 真正押注的路线讲得异常直白:多模态只是起点,世界模型、可控模拟、Agent 与持续学习,才是下一轮分水岭。
Gemini 联席负责人罕见摊牌:世界模型不是视频生成,Agent 才是终局
如果你还把世界模型当成“更逼真的视频生成”,那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中,把 Google 真正押注的路线讲得异常直白:多模态只是起点,世界模型、可控模拟、Agent 与持续学习,才是下一轮分水岭。
一个反直觉的判断:世界模型≠视频模型
访谈一上来,最容易被忽略、但也最关键的一点是:Oriel 明确把“世界模型”与传统视频生成模型切开了。
在很多从业者眼里,世界模型似乎就是“更长、更稳、更物理一致的视频生成”。但 Oriel 的定义更激进——世界模型不是为了生成好看的视频,而是一个可操控、可干预、可预测的世界渲染与模拟系统。
这意味着两个根本差异:第一,目标不是像素相似度,而是因果一致性;第二,模型不是被动播放,而是能响应行动、做反事实推演。也正因为如此,像 Omni 这样的系统,在 Google 内部被直接视为机器人、自动驾驶和规划系统的基础设施,而不是内容模型。
这其实解释了一个长期困惑的问题:为什么 Google 在视频生成上看起来并不急于“刷榜”?因为他们要的不是一个更强的生成器,而是一个能被 Agent 调用的“可计算世界”。
多模态不是堆数据,而是知识获取的分工
Oriel 对多模态的态度同样务实,甚至有点“去神秘化”。他并没有把多模态包装成某种必然的终极形态,而是把语言与视觉视为两种互补的知识获取通道。
语言的优势在于高密度、可压缩、显式知识;视觉和视频的价值,则在于那些“人类默认不说出来”的世界规律——物体如何相互作用、连续性如何保持、物理约束如何隐含在运动中。
访谈中一个非常有价值的讨论是:视觉或视频是否会迎来自己的“GPT 时刻”?Oriel 的回答并不乐观,也不悲观——纯视觉训练当然能学到大量世界结构,但在概念抽象与符号对齐上,难度远高于语言。
这也是为什么 Gemini 从一开始就坚持联合建模,而不是走“先视觉、后语言”的路线。不是因为这样更炫,而是因为这是目前看来获取世界知识效率最高的组合。
机器人不是数据问题,而是规划问题
谈到机器人,Oriel 把很多人期待的“数据爆炸式突破”泼了一盆冷水。
他承认仿真数据、现实数据的结合正在快速进步,但真正卡住机器人的,并不只是感知或控制,而是规划层面的世界理解:模型是否真的知道“下一步会发生什么”,以及“如果我换一种做法,结果会怎样”。
这正是世界模型被寄予厚望的原因。与其让机器人在真实世界里反复试错,不如先在一个高保真的、可控的模拟世界中完成大部分推演。
这里的关键不在于物理引擎有多精确,而在于模型是否能学会抽象的因果结构。Oriel 的潜台词很清楚:当世界模型足够好时,机器人进步的瓶颈会从硬件转向认知。
Agent 的真问题:不是能力,而是系统稳定性
从 Spark 等消费级 Agent 谈起,话题自然过渡到一个更现实的问题:为什么 Agent 看起来“很强”,却经常不可靠?
Oriel 的答案并不讨喜——问题往往不在模型,而在我们围绕模型搭的系统。他提到,当前大量 Agent 系统依赖复杂的手工 scaffolding:规则、状态机、异常处理逻辑层层叠加。
但他同时抛出了一个更具争议性的判断,呼应了经典的“苦涩教训”:这些手工结构,长期来看很可能会被模型自己学会并生成。
真正困难的,是长程任务下的稳定性与可恢复性。这也是为什么 Google 在 Agent 上强调“系统设计与模型能力协同演进”,而不是指望一次模型升级解决所有问题。
记忆、强化学习与自我改进的边界
在更偏技术的部分,Oriel 系统性地拆解了“记忆”这个被反复提起却常被混用的概念:工作记忆、情景记忆,以及类似文件系统的外部记忆。
一个非常实用的观点是:非参数化记忆在真实服务和规模化部署中,往往比塞进模型权重里更可行。这不是理论问题,而是工程与成本问题。
谈到后训练与强化学习,他也给出了相当克制的评价。RL 在数学和编程中之所以有效,很大程度来自可验证性;一旦进入开放世界,奖励定义和数据效率就会迅速成为瓶颈。
至于“模型是否能真正创新”,Oriel 并没有给出煽动性的结论,而是把问题拆解为:如何评估科学创造力,以及自我改进是否能突破人类研究者在时间和物理上的限制。
总结
这场访谈最值得反复回味的,不是某个具体产品,而是 Google 对“下一阶段 AI”的整体判断:从模型能力,转向世界建模、系统设计与持续学习的协同。如果你在做多模态、Agent 或机器人,这意味着两个行动建议:第一,别只盯着生成质量,开始问模型是否“可操控、可预测”;第二,少迷信手工系统,多思考哪些结构应该交给模型自己学。真正的分水岭,可能不在下一个 benchmark,而在你是否已经站在“世界模型 + Agent”的坐标系里思考问题。
关键词: Gemini, 世界模型, 多模态, AI Agent, 强化学习
事实核查备注: 需要核查:Oriel Vignal 的正式职称与 Gemini 联席负责人身份;Omni 被称为世界模型的具体表述;Spark 是否为 Google 发布的消费级 Agent;Noam Shazeer 在 Gemini 项目中的角色;访谈中关于 AGI 时间表的原话表述。