从AlphaGo到AGI:Ioannis Antonoglou眼中的强化学习之路
正在加载视频...
视频章节
AlphaGo 之后,AGI 真的更近了吗?在这场对话中,AlphaGo 与 MuZero 的核心工程师 Ioannis Antonoglou 回顾了 DeepMind 从围棋出发的真实决策、技术不确定性与关键转折,并分享了他对强化学习、幻觉问题以及下一代 AI Agent 的判断。
从AlphaGo到AGI:Ioannis Antonoglou眼中的强化学习之路
AlphaGo 之后,AGI 真的更近了吗?在这场对话中,AlphaGo 与 MuZero 的核心工程师 Ioannis Antonoglou 回顾了 DeepMind 从围棋出发的真实决策、技术不确定性与关键转折,并分享了他对强化学习、幻觉问题以及下一代 AI Agent 的判断。
为什么 DeepMind 从游戏开始,而不是现实世界?
很多人事后看 AlphaGo,都会觉得“用游戏训练 AI”是显而易见的路径,但 Ioannis Antonoglou 回忆,当年 DeepMind 选择从游戏入手,其实是一个极其严肃、甚至有风险的决定。这背后并不是为了炫技,而是出于对通用人工智能(AGI)的长期目标考量。
他解释说,DeepMind 从一开始就把 AGI 当成终极目标,而游戏提供了一个罕见的“受控环境”:规则清晰、反馈即时、目标明确,而且可以无限次重复实验。相比真实世界,这种环境让研究者能精准判断一个系统到底学到了什么,而不是被噪声和偶然性误导。“游戏不是现实世界,但它们是检验智能的显微镜。”这是他反复强调的核心逻辑。
更重要的是,游戏允许端到端学习。AlphaGo 并不是被写入围棋知识,而是通过强化学习(Reinforcement Learning,一种通过试错和奖励来学习策略的方法)自己形成理解。Antonoglou 指出,如果一个系统能在完全没有人类经验输入的情况下掌握复杂游戏,那它至少具备了某种可迁移的智能结构。这种结构,才是通向现实世界问题的基础。
这种选择也意味着巨大不确定性。围棋的状态空间极其庞大,长期以来被认为“不可解”。正因如此,DeepMind 内部始终存在担忧:AlphaGo 真的学到了智能,还是只是“看起来很强”?这个问题贯穿了整个项目周期。
AlphaGo 的不确定性:强化学习并不“听话”
在采访中,Antonoglou 多次提到一个容易被忽视的事实:AlphaGo 从来都不是一个确定性系统。与传统程序不同,它并不能保证在相同局面下永远给出同一个答案。“这些系统是随机的、有创造力的,也会出现类似人类的幻觉。”他直言不讳地说。
这正是强化学习最让人不安、也最迷人的地方。AlphaGo 基于深度神经网络(Deep Neural Network)和蒙特卡洛树搜索,但其决策包含概率分布和采样过程,这意味着它可能会犯错,甚至以难以解释的方式犯错。Antonoglou 将这种现象直接类比到今天的大语言模型:“它们会 hallucinate(产生幻觉),只是形式不同。”
因此,DeepMind 团队采取了一个极端但必要的验证方式:让世界上最强的人类棋手不断“拷打”系统。不是为了赢,而是为了找到它会在哪些地方崩溃。“你只能通过真正的对抗,才能知道系统的边界在哪里。”这也是为什么李世石的比赛如此关键——那不是展示,而是压力测试。
这种方法论在今天依然成立。Antonoglou 强调,评估 AI Agent 时,不能只看平均表现,而要刻意寻找“盲点”。因为真正危险的系统,不是弱,而是你不知道它什么时候会错。
从 Move 37 到 AlphaZero:一次信念被验证的时刻
如果说 AlphaGo 对战李世石的胜利是历史性事件,那么“第 37 手”则是一次心理层面的转折。Antonoglou 回忆,当那一步棋落下时,连 DeepMind 内部的人都一度怀疑系统是不是出 bug 了。这一步完全违背人类围棋直觉,却最终被证明是制胜关键。
这件事的重要性不在于“机器下出神之一手”,而在于它暴露了人类理解的局限。Antonoglou 将其称为“系统和人类共同发现的盲区”。从那一刻起,DeepMind 更加确信,强化学习并不是在模仿人类,而是在探索一个更大的策略空间。
这种信念直接推动了 AlphaZero 的诞生。与 AlphaGo 不同,AlphaZero 完全不依赖人类棋谱,只依靠自我对弈就达到了超越人类的水平。Antonoglou 将其形容为“一个更通用的方法”,因为同样的算法可以应用到围棋、国际象棋和将棋。
但他也明确指出,AlphaZero 的意义不在于性能,而在于方法论:通用的学习机制,比任何单一领域的优化都更重要。这一原则后来被延续到 MuZero 中,并逐步走向更复杂的现实问题。
从 MuZero 到 AI Agent:强化学习的下一站
谈到 MuZero,Antonoglou 特别强调了“模型式强化学习”(Model-based Reinforcement Learning)的价值。MuZero 不需要事先知道环境规则,而是在学习过程中同时构建一个内部世界模型,用于规划和决策。这让系统在信息不完整的情况下,依然能进行长期推理。
在他看来,这一点对今天的 AI Agent 尤其关键。当前的大语言模型擅长生成文本,却缺乏稳定的规划和执行能力,而强化学习正好补足这一短板。他并不认为两者是竞争关系,而是明确指出:“通往 AGI 的路径,很可能是强化学习与大语言模型的结合。”
Antonoglou 也坦率提到现实限制:算力、数据效率以及推理阶段的计算成本,都是强化学习大规模落地的障碍。过去 AlphaGo 训练曾使用大量 GPU 和 TPU,这在当时几乎是极限配置。但他同时指出,随着推理阶段“更深计算”(deeper compute at inference)的出现,AI 系统在做决策时会越来越像在“思考”。
这也是他创立 Reflection 的背景——探索下一代 AI Agent,不只是会说话,而是真正能行动、规划并自我改进。
总结
从 AlphaGo 的不确定性,到 Move 37 带来的认知冲击,再到 AlphaZero 与 MuZero 的方法论演进,Antonoglou 的经历揭示了一条清晰但并不轻松的路径:通用智能不是靠规则堆砌,而是靠可扩展的学习机制。在他看来,真正成熟的 AI Agent,必须既能语言表达,也能在复杂环境中通过强化学习不断修正自己。这条路仍然充满风险,但正如 AlphaGo 当年的实践所证明的那样,只有直面不确定性,才可能逼近 AGI。
关键词: AlphaGo, 强化学习, 通用人工智能, AI Agent, DeepMind
事实核查备注: 人物:Ioannis Antonoglou(AlphaGo、MuZero 核心工程师);公司:Google DeepMind;技术:强化学习、深度神经网络、AlphaGo、AlphaZero、MuZero、模型式强化学习;概念:Move 37、幻觉(hallucination)、AI Agent;硬件:GPU、TPU