世界模型正成为下一条主线，Google、NVIDIA与AGI的真实赌注

AI PM 编辑部 · 2025年01月08日 · 12 阅读 · AI/人工智能

黄仁勋 Sam Altman Yann LeCun Satya Nadella 微调 AI应用模型训练预训练开源模型世界模型

正在加载视频...

视频章节

当大模型的预训练红利开始显现边际效应，AI行业正在寻找新的增长曲线。本文基于The AI Daily Brief的视频内容，梳理Google DeepMind新组建的世界模型团队、NVIDIA Cosmos的发布，以及业内对AGI路径的分歧，带你理解为什么“理解物理世界”正被视为通往下一代AI的关键一步。

世界模型正成为下一条主线，Google、NVIDIA与AGI的真实赌注

当大模型的预训练红利开始显现边际效应，AI行业正在寻找新的增长曲线。本文基于The AI Daily Brief的视频内容，梳理Google DeepMind新组建的世界模型团队、NVIDIA Cosmos的发布，以及业内对AGI路径的分歧，带你理解为什么“理解物理世界”正被视为通往下一代AI的关键一步。

当语言模型触顶，行业开始回头看“世界”

这一切的背景，是一个在2024年第四季度被反复讨论的问题：以“预训练 + 参数规模”为核心的大语言模型路径，是否正在逼近天花板。视频一开始就点出了这一行业情绪——我们看到了o1、o3等强调推理能力的新模型，也听到了微软CEO Satya Nadella公开表示“需要新的架构”。

在这种氛围下，“世界模型”（World Models）重新回到舞台中央。所谓世界模型，指的是能够学习并模拟真实物理世界运作方式的模型，就像语言模型理解语法和语义结构一样，它们试图理解物体、运动、因果关系。这一点之所以重要，是因为它直接关系到机器人、自动驾驶，以及更长期的通用人工智能（AGI）。

视频中的一个关键判断是：世界模型并不是对现有大模型的简单补充，而可能是一条并行甚至替代的技术路线。相比继续堆算力和文本数据，这类模型试图回答一个更根本的问题——AI是否真的“理解”了它所处的世界，而不仅仅是预测下一个token。

DeepMind新团队浮出水面：从Sora到“模拟世界”

真正让这条路线升温的，是Google的最新动作。视频披露，Google正在DeepMind内部组建一支全新的世界模型团队，负责人是Tim Brooks——OpenAI视频生成模型Sora的联合负责人之一，他在2024年10月离开OpenAI。

Brooks在社交媒体上的原话非常直接：“DeepMind有着制造能够模拟世界的超大规模生成模型的雄心，我正在为这个使命组建新团队。”这并不是一次常规招聘，而是一次战略级别的押注。招聘信息中明确写道：“我们相信，在视频和多模态数据上扩展预训练，是通向AGI的关键路径。”

值得注意的是，DeepMind并非从零开始。此前他们已经发布过名为Genie 2的演示模型，用来理解视频游戏中的物理规则，但当时反响并不算大。如今专门成立团队，意味着Google希望把这类模型推向“真正大规模计算”的阶段，而不只是功能受限的demo。团队还将与Gemini和Genie项目协作，目标是把世界模型推到当前算力条件下的极限。

从游戏到现实：世界模型还缺哪一步？

视频中对当前世界模型的评价相当克制：到目前为止，大多数成果仍停留在“概念验证”。许多实验依赖视频游戏或电影数据，这些环境本身是封闭和人为设计的，与真实世界存在差距。

一个被特别点名的例外是Genesis项目。该项目在2024年12月首次亮相，展示了一个4D世界模拟系统，不仅能生成高质量视频，还能用于机器人训练。Genesis声称，他们让机器人训练速度比此前最先进的物理模拟器快了430倍，把训练时间压缩到一分钟以内。这是视频中最具体、也最令人震撼的数字之一。

正是在这样的背景下，DeepMind新团队的意义才变得清晰：它可能是第一批尝试用“顶级科技公司全部算力与数据”来训练世界模型的项目。正如Meta首席AI科学家Yann LeCun多次强调的那样，他甚至公开断言，标准GPT架构“没有通向AGI的路径”。Google的这一举动，某种程度上正是在验证或反驳这一判断。

NVIDIA Cosmos与开源转折：机器人领域的ChatGPT时刻？

不只Google在行动。视频后半段把镜头转向了NVIDIA。在CES主题演讲中，黄仁勋发布了一组名为Cosmos的世界模型，并直言“机器人的ChatGPT时刻即将到来”。

Cosmos并不强调“生成创意内容”，而是“教会AI理解物理世界”。这些模型使用了约2000万小时的视频进行训练，重点关注人类的行走、手部动作以及物体操作。整个模型家族从40亿到140亿参数不等：小模型主打低延迟实时应用，大模型则追求高保真输出。

一个被反复强调的细节是：Cosmos是可用于商业用途的开源模型。这意味着机器人和自动驾驶公司，不必从零开始训练自己的世界模型。正如开发者Diego所评价的那样：“这不仅是模型本身，更是合成数据生成方式的巨大突破。”在一个训练成本极高的领域，这种开放策略可能带来结构性变化。

总结

把这些线索放在一起，会发现一个清晰的信号：当语言智能的扩展开始变慢，行业正在重新思考“理解世界”本身。无论是DeepMind高调组建新团队，Yann LeCun对GPT路线的质疑，还是NVIDIA选择将世界模型开源，这些动作都在指向同一个问题——真正的智能，是否必须扎根于物理现实。对读者而言，世界模型也许还远未成熟，但它很可能决定了机器人、自动驾驶，甚至AGI的下一个十年方向。

关键词：世界模型， Google DeepMind， NVIDIA Cosmos，通用人工智能，多模态预训练

事实核查备注： Tim Brooks：前OpenAI Sora联合负责人，2024年10月离职；Genie 2：Google DeepMind发布的世界模型demo；Genesis项目：宣称机器人训练速度提升430倍，时间低于1分钟；Cosmos模型：NVIDIA发布，参数规模40亿-140亿，训练数据约2000万小时视频；引述观点：Satya Nadella谈新架构，Yann LeCun称GPT无通向AGI路径，黄仁勋称“机器人的ChatGPT时刻即将到来”。

返回文章列表