当AI真正长出手和眼：机器人迎来自己的ChatGPT时刻

AI PM 编辑部 · 2025年03月14日 · 11 阅读 · AI/人工智能

黄仁勋 Elon Musk AI应用视觉语言模型世界模型多模态 AI推理 AI Agent Gemini 2.0 ChatGPT

正在加载视频...

视频章节

从Google发布Gemini Robotics开始，具身智能正在跨过一个关键门槛。本篇文章通过具体案例与行业对比，解释为什么通用机器人第一次看起来“真的可行”，以及这对科技公司、创业者和普通人意味着什么。

当AI真正长出手和眼：机器人迎来自己的ChatGPT时刻

从Google发布Gemini Robotics开始，具身智能正在跨过一个关键门槛。本篇文章通过具体案例与行业对比，解释为什么通用机器人第一次看起来“真的可行”，以及这对科技公司、创业者和普通人意味着什么。

为什么这一次不只是炫技：Gemini Robotics的出现

这期视频的切入口，是Google发布了专门面向机器人的新模型家族——Gemini Robotics。但真正重要的并不是“Google又发模型了”，而是它第一次系统性地回应了一个长期困扰机器人行业的问题：为什么机器人看起来很厉害，却始终做不了通用的事。

主持人回顾了不到六个月前的一幕：埃隆·马斯克在Robotaxi发布会上展示了Tesla的Optimus人形机器人，视觉效果震撼。但几天后外界发现，这些机器人很多动作其实来自远程人工控制。这并不只是一次公关翻车，而是暴露了一个事实——具身智能（Embodied AI）极其困难，尤其是想让机器人在没有逐个动作训练的情况下，完成通用任务。

视频里有一句判断很关键：人形机器人迄今为止“几乎都需要为每一个动作做专项训练”。这也是为什么Google选择在此时推出Gemini Robotics。它不是单一模型，而是一整套围绕“通用、可交互、灵巧”三大能力设计的系统，目标是把机器人从“预编程工具”推进到“能理解世界的执行者”。

从大脑到身体：两种模型如何拼出具身智能

理解Gemini Robotics的关键，在于它的架构思路。Google DeepMind并没有试图用一个模型解决所有问题，而是拆分成两层：一个是视觉-语言-动作模型，另一个是名为Gemini Robotics ER（Embodied Reasoning，具身推理）的模型。

前者负责感知和执行，继承自Gemini 2.0的原生多模态能力，可以同时处理视觉、文本和音频输入；后者则把当前AI推理模型的思路，直接搬进了物理世界，用于规划和理解环境。这和当下AI Agent的设计非常相似：一个模型负责“想”，一个模型负责“做”。主持人用一句很形象的话总结——把具身智能看成“有眼睛和手的AI代理（agents with eyes and hands）并不夸张”。

为什么这很重要？因为推理能力意味着泛化。视频中展示的案例包括：机器人在没有专项训练的情况下，把香蕉放进正确的容器；完成精细动作，比如封上Ziploc袋、折纸、为不同形状的物体规划抓取方式。这些演示的突破点不在于某个动作本身，而在于“开箱即用”的能力——这是机器人从窄任务走向通用应用的分水岭。

不只Google：谁在押注机器人是AI的终极形态

视频并没有把视角局限在Google。相反，它快速扫过了几条正在汇合的趋势线。Figure AI最近结束了与OpenAI的合作，转而使用自研模型，展示了机器人打包杂货、推理物品摆放位置的能力。尽管动作速度不如Google的演示，但Figure的优势在于软硬件一体化，并且已经在宝马工厂等场景中部署。

与此同时，中国公司的存在感也在上升。像X Robot、Unitree等公司发布的灵巧机器人视频在社交平台走红，其中不少仍依赖人工操作，这恰恰反衬出Google模型的意义。Unitree已经以约1.6万美元的起价出售G1机器人，而视频中提到，业内普遍预期价格会快速下降。

另一个不能忽略的角色是NVIDIA。黄仁勋推出了Cosmos World Foundation Model，用于生成虚拟世界，帮助机器人在仿真环境中训练。世界模型的价值在于合成数据，可以在现实部署前大幅提升灵巧度。黄仁勋的判断很直接：“机器人的ChatGPT时刻快要到了。”在他看来，物理AI和自动驾驶将迎来爆发式增长。

资本与时间表：通用机器人不再只是远景

当技术叙事开始被资本强化，往往意味着一个拐点正在形成。视频提到，Dexterity Inc.刚刚融资9500万美元，目标是打造类人机器人，其能力描述几乎逐条对应Google提出的三大标准。投资人相信，物理AI正在接近一个不可逆的加速阶段。

最具体的时间信号来自Apptronik。这家公司完成了3.5亿美元的A轮融资，并选择与Google DeepMind合作，而不是自建模型。它的判断很务实：在这个阶段，和顶级模型团队合作，比从零开始更现实。Apptronik表示，其人形机器人已接近量产状态，目标是在2026年及之后实现商业化。

视频中有两句评价点出了行业共识。一句来自Kirona Gopala Krishnan：“通用的具身智能已经触手可及。”另一句来自彭博的Mark Gurman：“AI将成为一切的核心，而AI的终极硬件形态，就是能够理解并模仿人类行为的机器人。”这不再是科幻式的远期畅想，而是一条正在被工程、资金和产品共同推进的路线图。

总结

这期视频的价值，不在于单一产品发布，而在于它让人清晰地看到：具身智能正在从“看起来很酷”走向“开始可用”。当多模态模型、推理能力、世界模型和资本预期同时对齐，机器人终于有机会成为AI的下一次平台级跃迁。对普通人而言，这意味着未来十年里，AI不再只存在于屏幕中，而是会真正走进物理世界，成为我们身边的“行动者”。

关键词：具身智能， Gemini Robotics，人形机器人，多模态AI，物理AI

事实核查备注：视频标题：The State of AI for Robotics；频道：The AI Daily Brief；发布时间：2025-03-14。核心产品与技术：Google Gemini、Gemini 2.0、Gemini Robotics、Gemini Robotics ER（Embodied Reasoning）、NVIDIA Cosmos World Foundation Model。关键人物：Elon Musk、黄仁勋、Mark Gurman。关键公司：Google、Google DeepMind、Tesla、Figure AI、Unitree、NVIDIA、Apptronik、Dexterity Inc.。关键数字：Unitree G1起价约16，000美元；Dexterity Inc.融资9500万美元；Apptronik A轮融资3.5亿美元；Apptronik目标商业化时间为2026年及之后。

返回文章列表