NVIDIA 机器人掌门人放话：大模型的终局，其实是机器人

AI PM 编辑部 · 2026年04月30日 · 68 阅读 · AI/人工智能

Andrej Karpathy 黄仁勋 Ilya Sutskever Elon Musk 强化学习视觉语言模型 Token 模型训练多模态零样本学习

正在加载视频...

视频章节

当所有人都在追逐大语言模型的“最终形态”时，NVIDIA 机器人负责人 Jim Fan 给出了一个反直觉答案：真正的 End Game 不在语言里，而在物理世界。一次演讲，把机器人、世界模型和 AGI 的关系彻底讲透。

NVIDIA 机器人掌门人放话：大模型的终局，其实是机器人

当所有人都在追逐大语言模型的“最终形态”时，NVIDIA 机器人负责人 Jim Fan 给出了一个反直觉答案：真正的 End Game 不在语言里，而在物理世界。一次演讲，把机器人、世界模型和 AGI 的关系彻底讲透。

当大模型打到“最终 Boss”，机器人还在新手村？

Jim Fan 一上来就抛出一个刺痛行业的问题：语言模型已经在“速通 AGI”，为什么机器人还像个旁观者？

他用一个极具画面感的对比点破现状——LLM 的进化路径已经清晰得像游戏攻略：预训练学“语法”，指令微调学“做事”，强化学习学“推理”，再用自动化研究把整个循环加速到超越人类极限。Andre Karpathy 口中的“Final Boss Fight”，几乎所有顶级实验室都已入场。

而机器人呢？它们依然困在“能看、能说、但不会真正动”的阶段。Jim 的不满非常直接：如果 AGI 的终点真的是理解并改变世界，那为什么最贴近物理世界的机器人，却没能共享这场盛宴？

这不是情绪化的吐槽，而是 NVIDIA Robotics 的战略起点。Jim 给这个判断起了个名字：Robotics’ End Game——机器人必须复刻、甚至超越大模型的成功路径。

从 Token 到物理世界：一个“大胆但抄作业”的类比

Jim Fan 承认，他的核心灵感几乎是“照抄”大模型。

在语言模型里，我们预测的是下一个 token；那在机器人世界里，为什么不能预测“下一个物理世界状态”？

他把这套方法称为 The Great Parallel：
- 语言模型：模拟字符串的演化
- 机器人模型：模拟物理世界的演化

先通过大规模仿真学会世界的基本规律，再通过少量、但极其关键的真实动作数据做 action fine-tuning，最后用强化学习跑完“最后一公里”。

这个类比的狠点在于：它把机器人问题从“机械控制”直接拉升到了“世界建模”的高度。机器人不再是执行器，而是一个在内部运行世界模型、不断做预测与修正的智能体。

Jim 的一句话几乎可以当作宣言：“如果你打不过大模型，就加入它们。”机器人不是另一条路，而是同一条路的下一个关卡。

为什么 VLA 模型不够？问题不在聪不聪明，而在‘偏科’

过去三年，机器人领域的主流是 VLA（视觉-语言-动作）模型：在强大的视觉语言模型上，接一个动作头。

Jim Fan 的评价非常尖锐：这些模型本质上是 LVAs——Language-first。

语言占据了最多参数，视觉其次，动作最少。结果是什么？它们擅长名词，不擅长动词；擅长知识，不擅长物理。

他举了一个经典例子：让模型把可乐罐移动到一张 Taylor Swift 的照片旁边。模型确实能泛化、能理解指令，但这并不是机器人真正需要的能力。它缺的不是“看懂世界”，而是“预测世界如何变化”。

于是 Jim 提出了第二种预训练范式：世界模型（World Models）。不是再堆语言，而是让模型在仿真中学习物理、因果、动力学——哪怕看起来有点“physics slop”，但这是机器人必须咽下去的那一口苦药。

他的结论几乎是送别词：“VLA models，感谢你们的贡献。Rest in peace. Long live World Action Models.”

真正的瓶颈不是模型，是数据：如何打破‘24 小时诅咒’

如果说模型路线已经逐渐清晰，那数据，才是机器人真正的生死线。

Jim Fan 点出一个残酷现实：一台机器人，一天只有 24 小时，全年无休也跑不出互联网级别的数据量。这就是机器人版的“数据天花板”。

NVIDIA 的解法分三层：

第一层，是仿真和合成数据，把时间从线性变成并行。
第二层，是人类遥操作（teleoperation）与“传感化人类数据”，让人类动作成为可规模化的训练信号。
第三层，也是最激进的一层：训练出在零遥操作数据下也能 rollout 的策略，彻底降低真实世界采集的依赖。

Jim 甚至半开玩笑地说：‘Buy more robots， the more you save.’ 这句话背后，其实是 NVIDIA 一贯的系统级思维——算力、仿真、数据、模型，必须同时 scale。

2040 不是科幻：机器人版 AGI 的三项隐藏成就

演讲后半段，Jim Fan 把研究路径包装成“解锁游戏成就”，但内容一点都不轻松。

他明确提到，机器人距离真正的 End Game，还有至少三项关键成就需要解锁：
- 更通用的世界模型
- 更高效的行动对齐机制
- 超越人类示范速度的数据闭环

当有人质疑这是否太像科幻时，Jim 的回应非常克制：不是明年，不是五年内，但到 2040 年，这条路线是清晰可见的。

他用一句呼应开场的话收尾：“If you believe in robotics， robotics will believe in you.” 这不是鸡汤，而是对长期主义的明确下注。

总结

Jim Fan 这场演讲真正的价值，不在于某个具体模型或技术细节，而在于他把机器人问题，重新放回了 AGI 的主叙事里。对 AI 从业者来说，这意味着三件事：第一，语言不是智能的终点，物理世界才是；第二，世界模型和数据闭环将成为下一个主战场；第三，如果你现在做的工作无法接入这条“大并行”，它迟早会被边缘化。一个值得反问自己的问题是：你的模型，真的理解世界会怎么变吗？

关键词： NVIDIA Robotics，世界模型，强化学习，机器人 End Game，通用人工智能

事实核查备注：需要核查：Jim Fan 的职位与头衔；DGX-1 赠送 OpenAI 的时间（2016 年）；Andre Karpathy、Ilya Sutskever 的引用原话；2040 年时间判断是否为演讲中明确表述；VLA 与 World Action Models 的术语使用。

返回文章列表