当AI真正长出手和眼:机器人迎来自己的ChatGPT时刻
正在加载视频...
视频章节
从Google发布Gemini Robotics开始,具身智能正在跨过一个关键门槛。本篇文章通过具体案例与行业对比,解释为什么通用机器人第一次看起来“真的可行”,以及这对科技公司、创业者和普通人意味着什么。
当AI真正长出手和眼:机器人迎来自己的ChatGPT时刻
从Google发布Gemini Robotics开始,具身智能正在跨过一个关键门槛。本篇文章通过具体案例与行业对比,解释为什么通用机器人第一次看起来“真的可行”,以及这对科技公司、创业者和普通人意味着什么。
为什么这一次不只是炫技:Gemini Robotics的出现
这期视频的切入口,是Google发布了专门面向机器人的新模型家族——Gemini Robotics。但真正重要的并不是“Google又发模型了”,而是它第一次系统性地回应了一个长期困扰机器人行业的问题:为什么机器人看起来很厉害,却始终做不了通用的事。
主持人回顾了不到六个月前的一幕:埃隆·马斯克在Robotaxi发布会上展示了Tesla的Optimus人形机器人,视觉效果震撼。但几天后外界发现,这些机器人很多动作其实来自远程人工控制。这并不只是一次公关翻车,而是暴露了一个事实——具身智能(Embodied AI)极其困难,尤其是想让机器人在没有逐个动作训练的情况下,完成通用任务。
视频里有一句判断很关键:人形机器人迄今为止“几乎都需要为每一个动作做专项训练”。这也是为什么Google选择在此时推出Gemini Robotics。它不是单一模型,而是一整套围绕“通用、可交互、灵巧”三大能力设计的系统,目标是把机器人从“预编程工具”推进到“能理解世界的执行者”。
从大脑到身体:两种模型如何拼出具身智能
理解Gemini Robotics的关键,在于它的架构思路。Google DeepMind并没有试图用一个模型解决所有问题,而是拆分成两层:一个是视觉-语言-动作模型,另一个是名为Gemini Robotics ER(Embodied Reasoning,具身推理)的模型。
前者负责感知和执行,继承自Gemini 2.0的原生多模态能力,可以同时处理视觉、文本和音频输入;后者则把当前AI推理模型的思路,直接搬进了物理世界,用于规划和理解环境。这和当下AI Agent的设计非常相似:一个模型负责“想”,一个模型负责“做”。主持人用一句很形象的话总结——把具身智能看成“有眼睛和手的AI代理(agents with eyes and hands)并不夸张”。
为什么这很重要?因为推理能力意味着泛化。视频中展示的案例包括:机器人在没有专项训练的情况下,把香蕉放进正确的容器;完成精细动作,比如封上Ziploc袋、折纸、为不同形状的物体规划抓取方式。这些演示的突破点不在于某个动作本身,而在于“开箱即用”的能力——这是机器人从窄任务走向通用应用的分水岭。
不只Google:谁在押注机器人是AI的终极形态
视频并没有把视角局限在Google。相反,它快速扫过了几条正在汇合的趋势线。Figure AI最近结束了与OpenAI的合作,转而使用自研模型,展示了机器人打包杂货、推理物品摆放位置的能力。尽管动作速度不如Google的演示,但Figure的优势在于软硬件一体化,并且已经在宝马工厂等场景中部署。
与此同时,中国公司的存在感也在上升。像X Robot、Unitree等公司发布的灵巧机器人视频在社交平台走红,其中不少仍依赖人工操作,这恰恰反衬出Google模型的意义。Unitree已经以约1.6万美元的起价出售G1机器人,而视频中提到,业内普遍预期价格会快速下降。
另一个不能忽略的角色是NVIDIA。黄仁勋推出了Cosmos World Foundation Model,用于生成虚拟世界,帮助机器人在仿真环境中训练。世界模型的价值在于合成数据,可以在现实部署前大幅提升灵巧度。黄仁勋的判断很直接:“机器人的ChatGPT时刻快要到了。”在他看来,物理AI和自动驾驶将迎来爆发式增长。
资本与时间表:通用机器人不再只是远景
当技术叙事开始被资本强化,往往意味着一个拐点正在形成。视频提到,Dexterity Inc.刚刚融资9500万美元,目标是打造类人机器人,其能力描述几乎逐条对应Google提出的三大标准。投资人相信,物理AI正在接近一个不可逆的加速阶段。
最具体的时间信号来自Apptronik。这家公司完成了3.5亿美元的A轮融资,并选择与Google DeepMind合作,而不是自建模型。它的判断很务实:在这个阶段,和顶级模型团队合作,比从零开始更现实。Apptronik表示,其人形机器人已接近量产状态,目标是在2026年及之后实现商业化。
视频中有两句评价点出了行业共识。一句来自Kirona Gopala Krishnan:“通用的具身智能已经触手可及。”另一句来自彭博的Mark Gurman:“AI将成为一切的核心,而AI的终极硬件形态,就是能够理解并模仿人类行为的机器人。”这不再是科幻式的远期畅想,而是一条正在被工程、资金和产品共同推进的路线图。
总结
这期视频的价值,不在于单一产品发布,而在于它让人清晰地看到:具身智能正在从“看起来很酷”走向“开始可用”。当多模态模型、推理能力、世界模型和资本预期同时对齐,机器人终于有机会成为AI的下一次平台级跃迁。对普通人而言,这意味着未来十年里,AI不再只存在于屏幕中,而是会真正走进物理世界,成为我们身边的“行动者”。
关键词: 具身智能, Gemini Robotics, 人形机器人, 多模态AI, 物理AI
事实核查备注: 视频标题:The State of AI for Robotics;频道:The AI Daily Brief;发布时间:2025-03-14。核心产品与技术:Google Gemini、Gemini 2.0、Gemini Robotics、Gemini Robotics ER(Embodied Reasoning)、NVIDIA Cosmos World Foundation Model。关键人物:Elon Musk、黄仁勋、Mark Gurman。关键公司:Google、Google DeepMind、Tesla、Figure AI、Unitree、NVIDIA、Apptronik、Dexterity Inc.。关键数字:Unitree G1起价约16,000美元;Dexterity Inc.融资9500万美元;Apptronik A轮融资3.5亿美元;Apptronik目标商业化时间为2026年及之后。