世界模型正成为下一条主线,Google、NVIDIA与AGI的真实赌注
正在加载视频...
视频章节
当大模型的预训练红利开始显现边际效应,AI行业正在寻找新的增长曲线。本文基于The AI Daily Brief的视频内容,梳理Google DeepMind新组建的世界模型团队、NVIDIA Cosmos的发布,以及业内对AGI路径的分歧,带你理解为什么“理解物理世界”正被视为通往下一代AI的关键一步。
世界模型正成为下一条主线,Google、NVIDIA与AGI的真实赌注
当大模型的预训练红利开始显现边际效应,AI行业正在寻找新的增长曲线。本文基于The AI Daily Brief的视频内容,梳理Google DeepMind新组建的世界模型团队、NVIDIA Cosmos的发布,以及业内对AGI路径的分歧,带你理解为什么“理解物理世界”正被视为通往下一代AI的关键一步。
当语言模型触顶,行业开始回头看“世界”
这一切的背景,是一个在2024年第四季度被反复讨论的问题:以“预训练 + 参数规模”为核心的大语言模型路径,是否正在逼近天花板。视频一开始就点出了这一行业情绪——我们看到了o1、o3等强调推理能力的新模型,也听到了微软CEO Satya Nadella公开表示“需要新的架构”。
在这种氛围下,“世界模型”(World Models)重新回到舞台中央。所谓世界模型,指的是能够学习并模拟真实物理世界运作方式的模型,就像语言模型理解语法和语义结构一样,它们试图理解物体、运动、因果关系。这一点之所以重要,是因为它直接关系到机器人、自动驾驶,以及更长期的通用人工智能(AGI)。
视频中的一个关键判断是:世界模型并不是对现有大模型的简单补充,而可能是一条并行甚至替代的技术路线。相比继续堆算力和文本数据,这类模型试图回答一个更根本的问题——AI是否真的“理解”了它所处的世界,而不仅仅是预测下一个token。
DeepMind新团队浮出水面:从Sora到“模拟世界”
真正让这条路线升温的,是Google的最新动作。视频披露,Google正在DeepMind内部组建一支全新的世界模型团队,负责人是Tim Brooks——OpenAI视频生成模型Sora的联合负责人之一,他在2024年10月离开OpenAI。
Brooks在社交媒体上的原话非常直接:“DeepMind有着制造能够模拟世界的超大规模生成模型的雄心,我正在为这个使命组建新团队。”这并不是一次常规招聘,而是一次战略级别的押注。招聘信息中明确写道:“我们相信,在视频和多模态数据上扩展预训练,是通向AGI的关键路径。”
值得注意的是,DeepMind并非从零开始。此前他们已经发布过名为Genie 2的演示模型,用来理解视频游戏中的物理规则,但当时反响并不算大。如今专门成立团队,意味着Google希望把这类模型推向“真正大规模计算”的阶段,而不只是功能受限的demo。团队还将与Gemini和Genie项目协作,目标是把世界模型推到当前算力条件下的极限。
从游戏到现实:世界模型还缺哪一步?
视频中对当前世界模型的评价相当克制:到目前为止,大多数成果仍停留在“概念验证”。许多实验依赖视频游戏或电影数据,这些环境本身是封闭和人为设计的,与真实世界存在差距。
一个被特别点名的例外是Genesis项目。该项目在2024年12月首次亮相,展示了一个4D世界模拟系统,不仅能生成高质量视频,还能用于机器人训练。Genesis声称,他们让机器人训练速度比此前最先进的物理模拟器快了430倍,把训练时间压缩到一分钟以内。这是视频中最具体、也最令人震撼的数字之一。
正是在这样的背景下,DeepMind新团队的意义才变得清晰:它可能是第一批尝试用“顶级科技公司全部算力与数据”来训练世界模型的项目。正如Meta首席AI科学家Yann LeCun多次强调的那样,他甚至公开断言,标准GPT架构“没有通向AGI的路径”。Google的这一举动,某种程度上正是在验证或反驳这一判断。
NVIDIA Cosmos与开源转折:机器人领域的ChatGPT时刻?
不只Google在行动。视频后半段把镜头转向了NVIDIA。在CES主题演讲中,黄仁勋发布了一组名为Cosmos的世界模型,并直言“机器人的ChatGPT时刻即将到来”。
Cosmos并不强调“生成创意内容”,而是“教会AI理解物理世界”。这些模型使用了约2000万小时的视频进行训练,重点关注人类的行走、手部动作以及物体操作。整个模型家族从40亿到140亿参数不等:小模型主打低延迟实时应用,大模型则追求高保真输出。
一个被反复强调的细节是:Cosmos是可用于商业用途的开源模型。这意味着机器人和自动驾驶公司,不必从零开始训练自己的世界模型。正如开发者Diego所评价的那样:“这不仅是模型本身,更是合成数据生成方式的巨大突破。”在一个训练成本极高的领域,这种开放策略可能带来结构性变化。
总结
把这些线索放在一起,会发现一个清晰的信号:当语言智能的扩展开始变慢,行业正在重新思考“理解世界”本身。无论是DeepMind高调组建新团队,Yann LeCun对GPT路线的质疑,还是NVIDIA选择将世界模型开源,这些动作都在指向同一个问题——真正的智能,是否必须扎根于物理现实。对读者而言,世界模型也许还远未成熟,但它很可能决定了机器人、自动驾驶,甚至AGI的下一个十年方向。
关键词: 世界模型, Google DeepMind, NVIDIA Cosmos, 通用人工智能, 多模态预训练
事实核查备注: Tim Brooks:前OpenAI Sora联合负责人,2024年10月离职;Genie 2:Google DeepMind发布的世界模型demo;Genesis项目:宣称机器人训练速度提升430倍,时间低于1分钟;Cosmos模型:NVIDIA发布,参数规模40亿-140亿,训练数据约2000万小时视频;引述观点:Satya Nadella谈新架构,Yann LeCun称GPT无通向AGI路径,黄仁勋称“机器人的ChatGPT时刻即将到来”。