机器人开始“像大模型一样思考”,DeepMind 正在改写机器人的边界

AI PM 编辑部 · 2023年08月01日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

一个机器人,被要求“捡起已经灭绝的动物”,它没有犹豫,直接抓起了桌上的恐龙玩偶。这个看似简单的动作,背后却意味着:机器人第一次真正用上了类似大语言模型的“理解力”。这不是演示噱头,而是一场正在发生的范式转移。

机器人开始“像大模型一样思考”,DeepMind 正在改写机器人的边界

一个机器人,被要求“捡起已经灭绝的动物”,它没有犹豫,直接抓起了桌上的恐龙玩偶。这个看似简单的动作,背后却意味着:机器人第一次真正用上了类似大语言模型的“理解力”。这不是演示噱头,而是一场正在发生的范式转移。

不是更聪明的手臂,而是“会理解世界”的机器人

长期以来,机器人最大的瓶颈从来不是电机、不是机械结构,而是“理解”。它们擅长重复,却极度依赖训练数据:见过的才能做,换个场景就宕机。DeepMind 推出的 RT-2,第一次正面绕开了这个死结。

RT-2 的关键不在于更复杂的控制算法,而在于它把“互联网上的语言和视觉知识”引入了机器人训练。DeepMind称之为 Vision-Language-Action(VLA)模型:模型不只看得见、听得懂,还能把理解转化为动作。

一句话总结它的思路:与其教机器人认识世界,不如让它直接继承人类已经写在互联网上的世界观。就像通用大语言模型不再局限于单一任务,RT-2 也不再被锁死在“见过的数据”里。

从“灭绝的动物”到“临时锤子”,推理能力才是分水岭

《纽约时报》报道的那次演示之所以出圈,是因为它击中了一个长期被忽视的事实:机器人第一次做出了“逻辑跳跃”。

“捡起已经灭绝的动物”并不是一个视觉问题,而是一个语义推理问题。狮子和鲸鱼还存在,恐龙已经灭绝——机器人需要理解这个概念,再把它映射到眼前的物体。这在过去几乎是不可能的。

更关键的是,RT-2 还引入了类似大模型的 Chain-of-Thought 推理方式:比如判断“什么东西可以当临时锤子”(答案是石头),或者“疲惫的人适合喝什么”(能量饮料)。这些并非机械指令,而是高层语义决策。

DeepMind 在超过 6000 次机器人实验中,将能力分为符号理解、推理、人类识别三类,并在所有维度上实现了超过 3 倍的泛化能力提升。这不是性能小修小补,而是能力形态的变化。

机器人复兴的背后,是语言模型在“下沉”

有意思的是,DeepMind 并不急着把 RT-2 商业化。谷歌很清楚:这不是一款马上卖货的产品,而是一种长期路线的验证。

《纽约时报》那句总结其实点破了本质:“硬件机器人回来了,是因为它们终于有了聊天机器人的大脑。”过去十年,机器人行业一度陷入低谷,原因很简单——硬件进步太慢,智能更慢。而大模型改变的是“智能密度”。

当语言模型开始进入机器人、游戏、科研工具,你会发现一个清晰趋势:AI 正在从“生成内容”,转向“参与决策”。无论是 RT-2 控制现实世界的动作,还是 Hasbro 设想中能实时响应玩家选择的 D&D 机制,本质都是让模型进入系统闭环。

从黑客松到立法:AI 不再只是大厂的玩具

同一条时间线上,还有两个容易被忽略的信号。

一边是 Anthropic 黑客松上涌现的项目:实时事实核查、个人 AI 医生、移民文件助手、分子科研工具。它们共同的特点是——不是炫技,而是嵌入具体决策流程。

另一边,美国推出 CREATE AI Act,试图通过国家级 AI 研究资源(NAIRR),降低算力和数据门槛。立法者已经意识到:如果只有大厂能做前沿 AI,技术红利只会复制旧的不平等。

这意味着,未来 AI 的竞争不只在模型大小,而在谁能把“理解+推理”嵌入真实世界,同时还能被更多人使用。

总结

RT-2 真正重要的,不是让机器人多抓稳几个杯子,而是证明了一件事:大语言模型正在成为一种“通用认知层”。对 AI 从业者来说,这意味着两个行动方向。第一,别再只盯着生成效果,思考你的模型是否进入了决策闭环。第二,关注多模态和推理能力的结合,它们正在决定哪些应用能跨过实验室,进入现实世界。一个值得思考的问题是:如果模型真的开始理解世界,你的产品,准备好让它“做决定”了吗?


关键词: RT-2, 机器人, 大语言模型, 多模态AI, AI推理

事实核查备注: 需要核查:RT-2 发布时间(2023-07 末)、实验次数是否为 6000+、DeepMind 对 3 倍提升的具体基线、《纽约时报》文章标题与描述、CREATE AI Act 与 NAIRR 的官方表述