ChatGPT第一次“长出身体”，这不是演示，是机器人时代的分水岭

AI PM 编辑部 · 2024年03月15日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还以为 ChatGPT 只是会聊天、写代码，那你已经落后了。就在 3 月中旬，OpenAI 把它装进了一台类人机器人，让 AI 看世界、理解场景、即时行动，还能解释“我为什么这么做”。这不是噱头，而是 AI 正式进入物理世界的关键一跃。

如果你还以为 ChatGPT 只是会聊天、写代码，那你已经落后了。就在 3 月中旬，OpenAI 把它装进了一台类人机器人，让 AI 看世界、理解场景、即时行动，还能解释“我为什么这么做”。这不是噱头，而是 AI 正式进入物理世界的关键一跃。

这段只有两分钟的视频，信息密度却高得吓人。Figure 01 站在桌前，被问到“你看到了什么”，它能准确描述环境；当人类说“我有点饿”，它没有追问，而是直接递上苹果；更关键的是，它还能反过来解释自己的行为逻辑——“这是桌上唯一可食用的东西”。

真正反直觉的地方在于：这不是预设脚本，也不是远程操控。Figure 创始人 Brett Adcock 明确强调，这是端到端神经网络、1倍速、连续拍摄。换句话说，我们看到的是一个模型，把视觉、语言、常识推理和低层动作，第一次连成了闭环。

过去的机器人，要么“看得见但想不明白”，要么“想得通但手脚很笨”。而这次，ChatGPT 级别的语言与语义理解，被直接接到了机器人的“身体”上。C-3PO 时代的比喻，第一次不显得夸张。

有意思的是，OpenAI 并不是第一次碰机器人。2017 到 2021 年，他们曾经有一支完整的机器人研究团队，还做过著名的 Rubik’s Cube 强化学习项目。但 2021 年，OpenAI 选择“止损”，彻底关掉机器人方向，把资源 all-in 大模型。

现在回头看，这是一个极其冷静的判断。硬件是慢变量，模型是快变量。OpenAI 把“身体”这件事交给 Figure，而自己专注提供最强的视觉语言模型。这次合作的分工非常清晰：OpenAI 负责视觉推理和语言理解，Figure 的神经网络负责毫秒级的低层动作控制。

这背后还有资本层面的信号。Figure 刚刚完成 6.75 亿美元融资，投资方包括 Jeff Bezos、NVIDIA、Microsoft、Amazon。这不是“赌一个概念”，而是在押注一个新平台：当大模型成熟后，最大的增量市场，很可能不在屏幕里，而在现实世界。

如果你是技术背景，看点其实在系统架构。Figure 01 的摄像头以 10Hz 把画面送入 OpenAI 训练的视觉语言模型，负责高层决策；而真正的“手眼协调”，由 Visio-Motor Transformer 策略完成，以 200Hz 输出 24 个自由度的动作指令。

这是一种非常聪明的“分层自治”：
- 互联网规模预训练模型，负责常识、语义和规划；
- 学到的视觉-运动策略，负责抓、放、操作这些人类觉得简单、但极难写规则的动作；
- 最底层的全身控制器，保证平衡、安全和物理稳定。

这也解释了为什么它能处理模糊指令。“我饿了”不是一个可执行命令，但在多模态模型的理解下，被翻译成“给人类一个合适的食物”。这是语言模型第一次，不只是生成文字，而是生成行为。

视频发布后，争议并不小。有人质疑语气里的“呃”“停顿”是演戏，但很快就被反驳——你完全可以让 GPT-4 按人类口语风格输出。更多研究者的反应反而非常一致：这是那种“你会记得自己在哪看到它”的时刻。

对比一下 Tesla Optimus 目前仍偏向预编程动作，Figure 01 已经能在开放场景下进行推理和解释。甚至有评论直言：Optimus 还在学走路，而 Figure 已经开始加速。

这并不意味着 Figure 已经赢了，但它清楚地展示了一条路线：当多模态大模型成熟到一定程度，机器人不再需要为每个任务单独训练，而是像人一样，通过理解世界来行动。这才是规模化的前提。

这件事对 AI 从业者的意义只有一句话：不要再把大模型只当“软件”。无论你做的是模型、应用还是产品，都该开始思考一个问题——如果 AI 有了身体，你的能力栈还成立吗？

短期看，这会重塑机器人、制造、物流和服务业；中期看，人与机器的协作方式会被重新定义；长期看，智能体的边界将从“数字世界”扩展到“物理现实”。

一个值得带走的判断是：下一波真正的 AI 平台机会，很可能不在下一个聊天界面，而在那些能把模型、安全、硬件和现实约束一起吃下去的系统里。Figure 01 只是第一个清晰信号。

关键词： Figure 01， ChatGPT，多模态AI，机器人， OpenAI

事实核查备注：需要核查的事实包括：Figure 融资金额为 6.75 亿美元及投资方名单；视频发布时间为 2024-03-15；演示是否确认为端到端神经网络、无远程操控；OpenAI 机器人团队关闭时间为 2021 年；技术参数如 10Hz 输入、200Hz 输出与 24 自由度的准确性。