机器人开始“像大模型一样思考”，DeepMind 正在改写机器人的边界

AI PM 编辑部 · 2023年08月01日 · 5 阅读 · AI/人工智能

多模态 AI推理 AI应用大语言模型 AI安全生成式AI AI伦理 Transformer 计算机视觉视觉语言模型

正在加载视频...

视频章节

一个机器人，被要求“捡起已经灭绝的动物”，它没有犹豫，直接抓起了桌上的恐龙玩偶。这个看似简单的动作，背后却意味着：机器人第一次真正用上了类似大语言模型的“理解力”。这不是演示噱头，而是一场正在发生的范式转移。

机器人开始“像大模型一样思考”，DeepMind 正在改写机器人的边界

一个机器人，被要求“捡起已经灭绝的动物”，它没有犹豫，直接抓起了桌上的恐龙玩偶。这个看似简单的动作，背后却意味着：机器人第一次真正用上了类似大语言模型的“理解力”。这不是演示噱头，而是一场正在发生的范式转移。

不是更聪明的手臂，而是“会理解世界”的机器人

长期以来，机器人最大的瓶颈从来不是电机、不是机械结构，而是“理解”。它们擅长重复，却极度依赖训练数据：见过的才能做，换个场景就宕机。DeepMind 推出的 RT-2，第一次正面绕开了这个死结。

RT-2 的关键不在于更复杂的控制算法，而在于它把“互联网上的语言和视觉知识”引入了机器人训练。DeepMind称之为 Vision-Language-Action（VLA）模型：模型不只看得见、听得懂，还能把理解转化为动作。

一句话总结它的思路：与其教机器人认识世界，不如让它直接继承人类已经写在互联网上的世界观。就像通用大语言模型不再局限于单一任务，RT-2 也不再被锁死在“见过的数据”里。

从“灭绝的动物”到“临时锤子”，推理能力才是分水岭

《纽约时报》报道的那次演示之所以出圈，是因为它击中了一个长期被忽视的事实：机器人第一次做出了“逻辑跳跃”。

“捡起已经灭绝的动物”并不是一个视觉问题，而是一个语义推理问题。狮子和鲸鱼还存在，恐龙已经灭绝——机器人需要理解这个概念，再把它映射到眼前的物体。这在过去几乎是不可能的。

更关键的是，RT-2 还引入了类似大模型的 Chain-of-Thought 推理方式：比如判断“什么东西可以当临时锤子”（答案是石头），或者“疲惫的人适合喝什么”（能量饮料）。这些并非机械指令，而是高层语义决策。

DeepMind 在超过 6000 次机器人实验中，将能力分为符号理解、推理、人类识别三类，并在所有维度上实现了超过 3 倍的泛化能力提升。这不是性能小修小补，而是能力形态的变化。

机器人复兴的背后，是语言模型在“下沉”

有意思的是，DeepMind 并不急着把 RT-2 商业化。谷歌很清楚：这不是一款马上卖货的产品，而是一种长期路线的验证。

《纽约时报》那句总结其实点破了本质：“硬件机器人回来了，是因为它们终于有了聊天机器人的大脑。”过去十年，机器人行业一度陷入低谷，原因很简单——硬件进步太慢，智能更慢。而大模型改变的是“智能密度”。

当语言模型开始进入机器人、游戏、科研工具，你会发现一个清晰趋势：AI 正在从“生成内容”，转向“参与决策”。无论是 RT-2 控制现实世界的动作，还是 Hasbro 设想中能实时响应玩家选择的 D&D 机制，本质都是让模型进入系统闭环。

从黑客松到立法：AI 不再只是大厂的玩具

同一条时间线上，还有两个容易被忽略的信号。

一边是 Anthropic 黑客松上涌现的项目：实时事实核查、个人 AI 医生、移民文件助手、分子科研工具。它们共同的特点是——不是炫技，而是嵌入具体决策流程。

另一边，美国推出 CREATE AI Act，试图通过国家级 AI 研究资源（NAIRR），降低算力和数据门槛。立法者已经意识到：如果只有大厂能做前沿 AI，技术红利只会复制旧的不平等。

这意味着，未来 AI 的竞争不只在模型大小，而在谁能把“理解+推理”嵌入真实世界，同时还能被更多人使用。

总结

RT-2 真正重要的，不是让机器人多抓稳几个杯子，而是证明了一件事：大语言模型正在成为一种“通用认知层”。对 AI 从业者来说，这意味着两个行动方向。第一，别再只盯着生成效果，思考你的模型是否进入了决策闭环。第二，关注多模态和推理能力的结合，它们正在决定哪些应用能跨过实验室，进入现实世界。一个值得思考的问题是：如果模型真的开始理解世界，你的产品，准备好让它“做决定”了吗？

关键词： RT-2，机器人，大语言模型，多模态AI， AI推理

事实核查备注：需要核查：RT-2 发布时间（2023-07 末）、实验次数是否为 6000+、DeepMind 对 3 倍提升的具体基线、《纽约时报》文章标题与描述、CREATE AI Act 与 NAIRR 的官方表述

返回文章列表