从AlphaGo到AGI：Ioannis Antonoglou眼中的强化学习之路

AI PM 编辑部 · 2025年01月28日 · 7 阅读 · AI/人工智能

强化学习幻觉 TPU GPU 深度学习神经网络通用人工智能 AI推理 AI Agent 大语言模型

正在加载视频...

视频章节

AlphaGo 之后，AGI 真的更近了吗？在这场对话中，AlphaGo 与 MuZero 的核心工程师 Ioannis Antonoglou 回顾了 DeepMind 从围棋出发的真实决策、技术不确定性与关键转折，并分享了他对强化学习、幻觉问题以及下一代 AI Agent 的判断。

从AlphaGo到AGI：Ioannis Antonoglou眼中的强化学习之路

AlphaGo 之后，AGI 真的更近了吗？在这场对话中，AlphaGo 与 MuZero 的核心工程师 Ioannis Antonoglou 回顾了 DeepMind 从围棋出发的真实决策、技术不确定性与关键转折，并分享了他对强化学习、幻觉问题以及下一代 AI Agent 的判断。

为什么 DeepMind 从游戏开始，而不是现实世界？

很多人事后看 AlphaGo，都会觉得“用游戏训练 AI”是显而易见的路径，但 Ioannis Antonoglou 回忆，当年 DeepMind 选择从游戏入手，其实是一个极其严肃、甚至有风险的决定。这背后并不是为了炫技，而是出于对通用人工智能（AGI）的长期目标考量。

他解释说，DeepMind 从一开始就把 AGI 当成终极目标，而游戏提供了一个罕见的“受控环境”：规则清晰、反馈即时、目标明确，而且可以无限次重复实验。相比真实世界，这种环境让研究者能精准判断一个系统到底学到了什么，而不是被噪声和偶然性误导。“游戏不是现实世界，但它们是检验智能的显微镜。”这是他反复强调的核心逻辑。

更重要的是，游戏允许端到端学习。AlphaGo 并不是被写入围棋知识，而是通过强化学习（Reinforcement Learning，一种通过试错和奖励来学习策略的方法）自己形成理解。Antonoglou 指出，如果一个系统能在完全没有人类经验输入的情况下掌握复杂游戏，那它至少具备了某种可迁移的智能结构。这种结构，才是通向现实世界问题的基础。

这种选择也意味着巨大不确定性。围棋的状态空间极其庞大，长期以来被认为“不可解”。正因如此，DeepMind 内部始终存在担忧：AlphaGo 真的学到了智能，还是只是“看起来很强”？这个问题贯穿了整个项目周期。

AlphaGo 的不确定性：强化学习并不“听话”

在采访中，Antonoglou 多次提到一个容易被忽视的事实：AlphaGo 从来都不是一个确定性系统。与传统程序不同，它并不能保证在相同局面下永远给出同一个答案。“这些系统是随机的、有创造力的，也会出现类似人类的幻觉。”他直言不讳地说。

这正是强化学习最让人不安、也最迷人的地方。AlphaGo 基于深度神经网络（Deep Neural Network）和蒙特卡洛树搜索，但其决策包含概率分布和采样过程，这意味着它可能会犯错，甚至以难以解释的方式犯错。Antonoglou 将这种现象直接类比到今天的大语言模型：“它们会 hallucinate（产生幻觉），只是形式不同。”

因此，DeepMind 团队采取了一个极端但必要的验证方式：让世界上最强的人类棋手不断“拷打”系统。不是为了赢，而是为了找到它会在哪些地方崩溃。“你只能通过真正的对抗，才能知道系统的边界在哪里。”这也是为什么李世石的比赛如此关键——那不是展示，而是压力测试。

这种方法论在今天依然成立。Antonoglou 强调，评估 AI Agent 时，不能只看平均表现，而要刻意寻找“盲点”。因为真正危险的系统，不是弱，而是你不知道它什么时候会错。

从 Move 37 到 AlphaZero：一次信念被验证的时刻

如果说 AlphaGo 对战李世石的胜利是历史性事件，那么“第 37 手”则是一次心理层面的转折。Antonoglou 回忆，当那一步棋落下时，连 DeepMind 内部的人都一度怀疑系统是不是出 bug 了。这一步完全违背人类围棋直觉，却最终被证明是制胜关键。

这件事的重要性不在于“机器下出神之一手”，而在于它暴露了人类理解的局限。Antonoglou 将其称为“系统和人类共同发现的盲区”。从那一刻起，DeepMind 更加确信，强化学习并不是在模仿人类，而是在探索一个更大的策略空间。

这种信念直接推动了 AlphaZero 的诞生。与 AlphaGo 不同，AlphaZero 完全不依赖人类棋谱，只依靠自我对弈就达到了超越人类的水平。Antonoglou 将其形容为“一个更通用的方法”，因为同样的算法可以应用到围棋、国际象棋和将棋。

但他也明确指出，AlphaZero 的意义不在于性能，而在于方法论：通用的学习机制，比任何单一领域的优化都更重要。这一原则后来被延续到 MuZero 中，并逐步走向更复杂的现实问题。

从 MuZero 到 AI Agent：强化学习的下一站

谈到 MuZero，Antonoglou 特别强调了“模型式强化学习”（Model-based Reinforcement Learning）的价值。MuZero 不需要事先知道环境规则，而是在学习过程中同时构建一个内部世界模型，用于规划和决策。这让系统在信息不完整的情况下，依然能进行长期推理。

在他看来，这一点对今天的 AI Agent 尤其关键。当前的大语言模型擅长生成文本，却缺乏稳定的规划和执行能力，而强化学习正好补足这一短板。他并不认为两者是竞争关系，而是明确指出：“通往 AGI 的路径，很可能是强化学习与大语言模型的结合。”

Antonoglou 也坦率提到现实限制：算力、数据效率以及推理阶段的计算成本，都是强化学习大规模落地的障碍。过去 AlphaGo 训练曾使用大量 GPU 和 TPU，这在当时几乎是极限配置。但他同时指出，随着推理阶段“更深计算”（deeper compute at inference）的出现，AI 系统在做决策时会越来越像在“思考”。

这也是他创立 Reflection 的背景——探索下一代 AI Agent，不只是会说话，而是真正能行动、规划并自我改进。

总结

从 AlphaGo 的不确定性，到 Move 37 带来的认知冲击，再到 AlphaZero 与 MuZero 的方法论演进，Antonoglou 的经历揭示了一条清晰但并不轻松的路径：通用智能不是靠规则堆砌，而是靠可扩展的学习机制。在他看来，真正成熟的 AI Agent，必须既能语言表达，也能在复杂环境中通过强化学习不断修正自己。这条路仍然充满风险，但正如 AlphaGo 当年的实践所证明的那样，只有直面不确定性，才可能逼近 AGI。

关键词： AlphaGo，强化学习，通用人工智能， AI Agent， DeepMind

事实核查备注：人物：Ioannis Antonoglou（AlphaGo、MuZero 核心工程师）；公司：Google DeepMind；技术：强化学习、深度神经网络、AlphaGo、AlphaZero、MuZero、模型式强化学习；概念：Move 37、幻觉（hallucination）、AI Agent；硬件：GPU、TPU

返回文章列表