只花几千美元复刻 AlphaGo:Eric Jang 亲手拆解那次震撼世界的突破
正在加载视频...
视频章节
AlphaGo 曾被认为是只有顶级实验室才能复制的奇迹,但 Eric Jang 在播客里抛出一个近乎挑衅的说法:今天,一个人、几千美元算力,就能从零“重建”它。更重要的不是算力,而是那套反直觉的思想结构。
只花几千美元复刻 AlphaGo:Eric Jang 亲手拆解那次震撼世界的突破
AlphaGo 曾被认为是只有顶级实验室才能复制的奇迹,但 Eric Jang 在播客里抛出一个近乎挑衅的说法:今天,一个人、几千美元算力,就能从零“重建”它。更重要的不是算力,而是那套反直觉的思想结构。
最反直觉的一点:AlphaGo 并不是靠“算力碾压”赢的
节目一开场,Eric Jang 就把很多人的直觉打碎了。AlphaGo 给人的印象是:庞大的算力、深不可测的搜索树、普通人无法企及的工程规模。但他明确指出,从概念上讲,今天复现 AlphaGo 的核心思想,并不需要天价计算资源,甚至“几千美元的云算力”就足够跑出一个结构上正确的版本。
真正的门槛不在硬件,而在思维方式。围棋的状态空间巨大,暴力搜索在深度 300 的博弈树前几乎立刻崩溃。问题不在于你能不能算得更快,而在于:你有没有一种机制,始终把搜索限制在“有希望的未来”集合里。这正是 AlphaGo 的第一层反直觉之处——它并没有试图看完所有可能,而是极其激进地“放弃”了绝大多数未来。
围棋规则很简单,但“结局判断”才是 AI 的噩梦
Eric 花了不少时间回到最基础的地方:围棋是如何结束的,胜负是如何判断的。这看起来像是初学者内容,但对 AI 来说,这是整个问题定义的地基。
在棋盘还没下完之前,你无法直接得到一个清晰的 reward 信号。你不知道当前局面到底是赢是输,只能在终局回溯。这意味着,任何不依赖学习的算法,只要试图穷举未来,都会在指数级爆炸中迷失。
他特别强调了一点:如果你完全不使用神经网络,而只靠规则和搜索,这个问题依然是不可解的(intractable)。不是慢一点的问题,而是原则上就算不完。这也解释了为什么 AlphaGo 的突破,并不是“更聪明的搜索技巧”,而是问题建模方式的彻底改变。
真正的核心突破:用“价值 + 策略”重塑搜索
当对话进入 AlphaGo 的核心时,Eric 给出了一个极其清晰的拆解。Monte Carlo Tree Search 本身并不新,但 AlphaGo 做了一件关键的事:把神经网络嵌进搜索,而不是让它直接下棋。
一个网络负责策略(哪些动作值得被扩展),一个网络负责价值(这个局面大概是赢还是输)。在树搜索中,Qₐ 表示某个动作的平均价值,而搜索过程不断在“探索未知”和“利用已知好棋”之间动态平衡。
这带来一个重要后果:搜索深度不再平均分配给所有分支,而是被高度集中在少数高潜力路径上。Eric 形容,这是“始终确保你待在那一小撮有意义的未来里”。这句话几乎可以作为 AlphaGo 的一句非官方定义。
训练并不神秘:关键是你在优化什么
当直觉建立之后,训练算法反而显得朴素。Eric 反复强调:你只需要把问题设置成一个明确的优化目标,其余的都是工程细节。
他们选择的神经网络架构在今天看来甚至有些“随意”,但真正重要的是训练循环:用当前模型引导搜索,用搜索结果反过来监督模型。这个闭环一旦成立,就可以不断自我强化。
他顺手点出一个很多人忽略的事实:AlphaGo 的这套训练范式,后来被证明是通用的。无论是 AlphaFold 还是 AlphaTensor,本质上都是“模型 + 搜索/结构化探索 + 自我生成数据”的变体。这不是围棋的技巧,而是一种可迁移的研究模板。
为什么它和今天的 LLM 强化学习完全不同
在节目后段,话题自然转向了大语言模型和强化学习。Eric 特别做了一个区分:不要把 AlphaGo 的 MCTS 和 LLM 里的 RL 混为一谈。
Monte Carlo Tree Search 做的是结构化、显式的未来展开,而 LLM 的 RL 更多是在一个隐式策略空间里微调分布。前者是在“算未来”,后者是在“塑造行为倾向”。
这也是为什么他认为,直接把 AlphaGo 那一套搬到 LLM 上,往往会失效。问题不在算法强不强,而在问题结构是否允许你清晰地定义状态、动作和终局价值。围棋可以,语言世界大多数时候不行。
总结
这期对话最有价值的地方,不是教你如何真的去复刻一个 AlphaGo,而是逼你重新审视“智能从哪里来”。算力、模型规模、参数量,都不是第一性原理。真正重要的是:你是否找到了一种方法,把几乎无限的可能性,压缩成一个可被反复优化的结构。
对从业者来说,最大的 takeaway 是:当你觉得问题“复杂到不可能”时,也许不是工具不够,而是问题还没被正确表述。AlphaGo 的故事提醒我们,下一次突破,很可能依然来自这种看似简单、但极难想到的建模转变。
关键词: AlphaGo, Monte Carlo Tree Search, 神经网络, 强化学习, 模型训练
事实核查备注: 需要核查:1)“几千美元算力即可复现核心概念”的原话语境;2)视频发布时间是否为 2026-05-15;3)Eric Jang 关于不使用神经网络仍然不可解的具体表述;4)AlphaGo 训练范式与 AlphaFold、AlphaTensor 的类比是否为原视频明确提及。