ChatGPT第一次“长出身体”,这不是演示,是机器人时代的分水岭
正在加载视频...
视频章节
如果你还以为 ChatGPT 只是会聊天、写代码,那你已经落后了。就在 3 月中旬,OpenAI 把它装进了一台类人机器人,让 AI 看世界、理解场景、即时行动,还能解释“我为什么这么做”。这不是噱头,而是 AI 正式进入物理世界的关键一跃。
ChatGPT第一次“长出身体”,这不是演示,是机器人时代的分水岭
如果你还以为 ChatGPT 只是会聊天、写代码,那你已经落后了。就在 3 月中旬,OpenAI 把它装进了一台类人机器人,让 AI 看世界、理解场景、即时行动,还能解释“我为什么这么做”。这不是噱头,而是 AI 正式进入物理世界的关键一跃。
不是“会动的ChatGPT”,而是AI第一次真正理解现实
这段只有两分钟的视频,信息密度却高得吓人。Figure 01 站在桌前,被问到“你看到了什么”,它能准确描述环境;当人类说“我有点饿”,它没有追问,而是直接递上苹果;更关键的是,它还能反过来解释自己的行为逻辑——“这是桌上唯一可食用的东西”。
真正反直觉的地方在于:这不是预设脚本,也不是远程操控。Figure 创始人 Brett Adcock 明确强调,这是端到端神经网络、1倍速、连续拍摄。换句话说,我们看到的是一个模型,把视觉、语言、常识推理和低层动作,第一次连成了闭环。
过去的机器人,要么“看得见但想不明白”,要么“想得通但手脚很笨”。而这次,ChatGPT 级别的语言与语义理解,被直接接到了机器人的“身体”上。C-3PO 时代的比喻,第一次不显得夸张。
OpenAI为什么自己不造机器人,却选了Figure?
有意思的是,OpenAI 并不是第一次碰机器人。2017 到 2021 年,他们曾经有一支完整的机器人研究团队,还做过著名的 Rubik’s Cube 强化学习项目。但 2021 年,OpenAI 选择“止损”,彻底关掉机器人方向,把资源 all-in 大模型。
现在回头看,这是一个极其冷静的判断。硬件是慢变量,模型是快变量。OpenAI 把“身体”这件事交给 Figure,而自己专注提供最强的视觉语言模型。这次合作的分工非常清晰:OpenAI 负责视觉推理和语言理解,Figure 的神经网络负责毫秒级的低层动作控制。
这背后还有资本层面的信号。Figure 刚刚完成 6.75 亿美元融资,投资方包括 Jeff Bezos、NVIDIA、Microsoft、Amazon。这不是“赌一个概念”,而是在押注一个新平台:当大模型成熟后,最大的增量市场,很可能不在屏幕里,而在现实世界。
真正的技术难点,不在“会说话”,而在“说完就能做”
如果你是技术背景,看点其实在系统架构。Figure 01 的摄像头以 10Hz 把画面送入 OpenAI 训练的视觉语言模型,负责高层决策;而真正的“手眼协调”,由 Visio-Motor Transformer 策略完成,以 200Hz 输出 24 个自由度的动作指令。
这是一种非常聪明的“分层自治”:
- 互联网规模预训练模型,负责常识、语义和规划;
- 学到的视觉-运动策略,负责抓、放、操作这些人类觉得简单、但极难写规则的动作;
- 最底层的全身控制器,保证平衡、安全和物理稳定。
这也解释了为什么它能处理模糊指令。“我饿了”不是一个可执行命令,但在多模态模型的理解下,被翻译成“给人类一个合适的食物”。这是语言模型第一次,不只是生成文字,而是生成行为。
为什么业内普遍认为:这是一个“相位变化”时刻
视频发布后,争议并不小。有人质疑语气里的“呃”“停顿”是演戏,但很快就被反驳——你完全可以让 GPT-4 按人类口语风格输出。更多研究者的反应反而非常一致:这是那种“你会记得自己在哪看到它”的时刻。
对比一下 Tesla Optimus 目前仍偏向预编程动作,Figure 01 已经能在开放场景下进行推理和解释。甚至有评论直言:Optimus 还在学走路,而 Figure 已经开始加速。
这并不意味着 Figure 已经赢了,但它清楚地展示了一条路线:当多模态大模型成熟到一定程度,机器人不再需要为每个任务单独训练,而是像人一样,通过理解世界来行动。这才是规模化的前提。
总结
这件事对 AI 从业者的意义只有一句话:不要再把大模型只当“软件”。无论你做的是模型、应用还是产品,都该开始思考一个问题——如果 AI 有了身体,你的能力栈还成立吗?
短期看,这会重塑机器人、制造、物流和服务业;中期看,人与机器的协作方式会被重新定义;长期看,智能体的边界将从“数字世界”扩展到“物理现实”。
一个值得带走的判断是:下一波真正的 AI 平台机会,很可能不在下一个聊天界面,而在那些能把模型、安全、硬件和现实约束一起吃下去的系统里。Figure 01 只是第一个清晰信号。
关键词: Figure 01, ChatGPT, 多模态AI, 机器人, OpenAI
事实核查备注: 需要核查的事实包括:Figure 融资金额为 6.75 亿美元及投资方名单;视频发布时间为 2024-03-15;演示是否确认为端到端神经网络、无远程操控;OpenAI 机器人团队关闭时间为 2021 年;技术参数如 10Hz 输入、200Hz 输出与 24 自由度的准确性。