NVIDIA 机器人掌门人放话:大模型的终局,其实是机器人
正在加载视频...
视频章节
当所有人都在追逐大语言模型的“最终形态”时,NVIDIA 机器人负责人 Jim Fan 给出了一个反直觉答案:真正的 End Game 不在语言里,而在物理世界。一次演讲,把机器人、世界模型和 AGI 的关系彻底讲透。
NVIDIA 机器人掌门人放话:大模型的终局,其实是机器人
当所有人都在追逐大语言模型的“最终形态”时,NVIDIA 机器人负责人 Jim Fan 给出了一个反直觉答案:真正的 End Game 不在语言里,而在物理世界。一次演讲,把机器人、世界模型和 AGI 的关系彻底讲透。
当大模型打到“最终 Boss”,机器人还在新手村?
Jim Fan 一上来就抛出一个刺痛行业的问题:语言模型已经在“速通 AGI”,为什么机器人还像个旁观者?
他用一个极具画面感的对比点破现状——LLM 的进化路径已经清晰得像游戏攻略:预训练学“语法”,指令微调学“做事”,强化学习学“推理”,再用自动化研究把整个循环加速到超越人类极限。Andre Karpathy 口中的“Final Boss Fight”,几乎所有顶级实验室都已入场。
而机器人呢?它们依然困在“能看、能说、但不会真正动”的阶段。Jim 的不满非常直接:如果 AGI 的终点真的是理解并改变世界,那为什么最贴近物理世界的机器人,却没能共享这场盛宴?
这不是情绪化的吐槽,而是 NVIDIA Robotics 的战略起点。Jim 给这个判断起了个名字:Robotics’ End Game——机器人必须复刻、甚至超越大模型的成功路径。
从 Token 到物理世界:一个“大胆但抄作业”的类比
Jim Fan 承认,他的核心灵感几乎是“照抄”大模型。
在语言模型里,我们预测的是下一个 token;那在机器人世界里,为什么不能预测“下一个物理世界状态”?
他把这套方法称为 The Great Parallel:
- 语言模型:模拟字符串的演化
- 机器人模型:模拟物理世界的演化
先通过大规模仿真学会世界的基本规律,再通过少量、但极其关键的真实动作数据做 action fine-tuning,最后用强化学习跑完“最后一公里”。
这个类比的狠点在于:它把机器人问题从“机械控制”直接拉升到了“世界建模”的高度。机器人不再是执行器,而是一个在内部运行世界模型、不断做预测与修正的智能体。
Jim 的一句话几乎可以当作宣言:“如果你打不过大模型,就加入它们。”机器人不是另一条路,而是同一条路的下一个关卡。
为什么 VLA 模型不够?问题不在聪不聪明,而在‘偏科’
过去三年,机器人领域的主流是 VLA(视觉-语言-动作)模型:在强大的视觉语言模型上,接一个动作头。
Jim Fan 的评价非常尖锐:这些模型本质上是 LVAs——Language-first。
语言占据了最多参数,视觉其次,动作最少。结果是什么?它们擅长名词,不擅长动词;擅长知识,不擅长物理。
他举了一个经典例子:让模型把可乐罐移动到一张 Taylor Swift 的照片旁边。模型确实能泛化、能理解指令,但这并不是机器人真正需要的能力。它缺的不是“看懂世界”,而是“预测世界如何变化”。
于是 Jim 提出了第二种预训练范式:世界模型(World Models)。不是再堆语言,而是让模型在仿真中学习物理、因果、动力学——哪怕看起来有点“physics slop”,但这是机器人必须咽下去的那一口苦药。
他的结论几乎是送别词:“VLA models,感谢你们的贡献。Rest in peace. Long live World Action Models.”
真正的瓶颈不是模型,是数据:如何打破‘24 小时诅咒’
如果说模型路线已经逐渐清晰,那数据,才是机器人真正的生死线。
Jim Fan 点出一个残酷现实:一台机器人,一天只有 24 小时,全年无休也跑不出互联网级别的数据量。这就是机器人版的“数据天花板”。
NVIDIA 的解法分三层:
第一层,是仿真和合成数据,把时间从线性变成并行。
第二层,是人类遥操作(teleoperation)与“传感化人类数据”,让人类动作成为可规模化的训练信号。
第三层,也是最激进的一层:训练出在零遥操作数据下也能 rollout 的策略,彻底降低真实世界采集的依赖。
Jim 甚至半开玩笑地说:‘Buy more robots, the more you save.’ 这句话背后,其实是 NVIDIA 一贯的系统级思维——算力、仿真、数据、模型,必须同时 scale。
2040 不是科幻:机器人版 AGI 的三项隐藏成就
演讲后半段,Jim Fan 把研究路径包装成“解锁游戏成就”,但内容一点都不轻松。
他明确提到,机器人距离真正的 End Game,还有至少三项关键成就需要解锁:
- 更通用的世界模型
- 更高效的行动对齐机制
- 超越人类示范速度的数据闭环
当有人质疑这是否太像科幻时,Jim 的回应非常克制:不是明年,不是五年内,但到 2040 年,这条路线是清晰可见的。
他用一句呼应开场的话收尾:“If you believe in robotics, robotics will believe in you.” 这不是鸡汤,而是对长期主义的明确下注。
总结
Jim Fan 这场演讲真正的价值,不在于某个具体模型或技术细节,而在于他把机器人问题,重新放回了 AGI 的主叙事里。对 AI 从业者来说,这意味着三件事:第一,语言不是智能的终点,物理世界才是;第二,世界模型和数据闭环将成为下一个主战场;第三,如果你现在做的工作无法接入这条“大并行”,它迟早会被边缘化。一个值得反问自己的问题是:你的模型,真的理解世界会怎么变吗?
关键词: NVIDIA Robotics, 世界模型, 强化学习, 机器人 End Game, 通用人工智能
事实核查备注: 需要核查:Jim Fan 的职位与头衔;DGX-1 赠送 OpenAI 的时间(2016 年);Andre Karpathy、Ilya Sutskever 的引用原话;2040 年时间判断是否为演讲中明确表述;VLA 与 World Action Models 的术语使用。