只花几千美元复刻 AlphaGo：Eric Jang 亲手拆解那次震撼世界的突破

AI PM 编辑部 · 2026年05月15日 · 96 阅读 · AI/人工智能

正在加载视频...

视频章节

AlphaGo 曾被认为是只有顶级实验室才能复制的奇迹，但 Eric Jang 在播客里抛出一个近乎挑衅的说法：今天，一个人、几千美元算力，就能从零“重建”它。更重要的不是算力，而是那套反直觉的思想结构。

只花几千美元复刻 AlphaGo：Eric Jang 亲手拆解那次震撼世界的突破

AlphaGo 曾被认为是只有顶级实验室才能复制的奇迹，但 Eric Jang 在播客里抛出一个近乎挑衅的说法：今天，一个人、几千美元算力，就能从零“重建”它。更重要的不是算力，而是那套反直觉的思想结构。

最反直觉的一点：AlphaGo 并不是靠“算力碾压”赢的

节目一开场，Eric Jang 就把很多人的直觉打碎了。AlphaGo 给人的印象是：庞大的算力、深不可测的搜索树、普通人无法企及的工程规模。但他明确指出，从概念上讲，今天复现 AlphaGo 的核心思想，并不需要天价计算资源，甚至“几千美元的云算力”就足够跑出一个结构上正确的版本。

真正的门槛不在硬件，而在思维方式。围棋的状态空间巨大，暴力搜索在深度 300 的博弈树前几乎立刻崩溃。问题不在于你能不能算得更快，而在于：你有没有一种机制，始终把搜索限制在“有希望的未来”集合里。这正是 AlphaGo 的第一层反直觉之处——它并没有试图看完所有可能，而是极其激进地“放弃”了绝大多数未来。

围棋规则很简单，但“结局判断”才是 AI 的噩梦

Eric 花了不少时间回到最基础的地方：围棋是如何结束的，胜负是如何判断的。这看起来像是初学者内容，但对 AI 来说，这是整个问题定义的地基。

在棋盘还没下完之前，你无法直接得到一个清晰的 reward 信号。你不知道当前局面到底是赢是输，只能在终局回溯。这意味着，任何不依赖学习的算法，只要试图穷举未来，都会在指数级爆炸中迷失。

他特别强调了一点：如果你完全不使用神经网络，而只靠规则和搜索，这个问题依然是不可解的（intractable）。不是慢一点的问题，而是原则上就算不完。这也解释了为什么 AlphaGo 的突破，并不是“更聪明的搜索技巧”，而是问题建模方式的彻底改变。

真正的核心突破：用“价值 + 策略”重塑搜索

当对话进入 AlphaGo 的核心时，Eric 给出了一个极其清晰的拆解。Monte Carlo Tree Search 本身并不新，但 AlphaGo 做了一件关键的事：把神经网络嵌进搜索，而不是让它直接下棋。

一个网络负责策略（哪些动作值得被扩展），一个网络负责价值（这个局面大概是赢还是输）。在树搜索中，Qₐ 表示某个动作的平均价值，而搜索过程不断在“探索未知”和“利用已知好棋”之间动态平衡。

这带来一个重要后果：搜索深度不再平均分配给所有分支，而是被高度集中在少数高潜力路径上。Eric 形容，这是“始终确保你待在那一小撮有意义的未来里”。这句话几乎可以作为 AlphaGo 的一句非官方定义。

训练并不神秘：关键是你在优化什么

当直觉建立之后，训练算法反而显得朴素。Eric 反复强调：你只需要把问题设置成一个明确的优化目标，其余的都是工程细节。

他们选择的神经网络架构在今天看来甚至有些“随意”，但真正重要的是训练循环：用当前模型引导搜索，用搜索结果反过来监督模型。这个闭环一旦成立，就可以不断自我强化。

他顺手点出一个很多人忽略的事实：AlphaGo 的这套训练范式，后来被证明是通用的。无论是 AlphaFold 还是 AlphaTensor，本质上都是“模型 + 搜索/结构化探索 + 自我生成数据”的变体。这不是围棋的技巧，而是一种可迁移的研究模板。

为什么它和今天的 LLM 强化学习完全不同

在节目后段，话题自然转向了大语言模型和强化学习。Eric 特别做了一个区分：不要把 AlphaGo 的 MCTS 和 LLM 里的 RL 混为一谈。

Monte Carlo Tree Search 做的是结构化、显式的未来展开，而 LLM 的 RL 更多是在一个隐式策略空间里微调分布。前者是在“算未来”，后者是在“塑造行为倾向”。

这也是为什么他认为，直接把 AlphaGo 那一套搬到 LLM 上，往往会失效。问题不在算法强不强，而在问题结构是否允许你清晰地定义状态、动作和终局价值。围棋可以，语言世界大多数时候不行。

总结

这期对话最有价值的地方，不是教你如何真的去复刻一个 AlphaGo，而是逼你重新审视“智能从哪里来”。算力、模型规模、参数量，都不是第一性原理。真正重要的是：你是否找到了一种方法，把几乎无限的可能性，压缩成一个可被反复优化的结构。

对从业者来说，最大的 takeaway 是：当你觉得问题“复杂到不可能”时，也许不是工具不够，而是问题还没被正确表述。AlphaGo 的故事提醒我们，下一次突破，很可能依然来自这种看似简单、但极难想到的建模转变。

关键词： AlphaGo， Monte Carlo Tree Search，神经网络，强化学习，模型训练

事实核查备注：需要核查：1）“几千美元算力即可复现核心概念”的原话语境；2）视频发布时间是否为 2026-05-15；3）Eric Jang 关于不使用神经网络仍然不可解的具体表述；4）AlphaGo 训练范式与 AlphaFold、AlphaTensor 的类比是否为原视频明确提及。

返回文章列表