AI突然会做数学了，这可能才是通向AGI最危险的一步

AI PM 编辑部 · 2026年04月28日 · 53 阅读 · AI/人工智能

大语言模型 AI应用通用人工智能 ChatGPT OpenAI

正在加载视频...

视频章节

几年前还被群嘲“连小学算术都算不对”的大模型，如今已经开始碰触研究级数学，甚至参与解决42年未解的问题。OpenAI最新一期播客给出了一个极具冲击力的信号：AI真正的拐点，可能不是写作、画画，而是数学。

AI突然会做数学了，这可能才是通向AGI最危险的一步

几年前还被群嘲“连小学算术都算不对”的大模型，如今已经开始碰触研究级数学，甚至参与解决42年未解的问题。OpenAI最新一期播客给出了一个极具冲击力的信号：AI真正的拐点，可能不是写作、画画，而是数学。

从“数学笑话”到奥数级别，只用了四年

如果把时间拨回四五年前，数学几乎是大语言模型最尴尬的短板。模型能写诗、能聊天，但一到多步推理就崩溃，算错是常态。播客一开始，Andrew Mayne 直接点破这个反差：数学，曾经“几乎是个笑话”，如今却成了模型进步最快、也最关键的领域。

Sebastian Bubeck 提到，过去四年里，数学成了一个“完美的进度条”。原因很简单：数学没有模糊空间，对就是对，错就是错。正因为残酷，它反而成为观察模型是否真的在“思考”的最佳基准。从简单代数，到需要几十页推导的复杂问题，模型的能力曲线不再是缓慢爬坡，而是突然抬头。

一个细节很震撼：他们已经看到模型能够处理“超过50页思考量”的问题。这不是算力堆出来的花活，而是长链路推理能力的实质性突破。也正是在数学这个最不留情面的领域，研究者第一次感受到：这东西，好像真的不一样了。

真正的分水岭：AI开始触碰研究级数学

很多人对“AI会做数学”的理解，仍停留在刷题、解竞赛。但播客里反复强调的，是一个更危险也更激动人心的信号：模型正在逼近研究级数学。

Ernest Ryu 分享了一个关键时刻：当模型不再只是复现已知解法，而是能参与开放性问题的探索。最具代表性的例子，是一个存在了42年的优化理论开放问题。研究者把问题结构、已有思路不断与模型交互，在反复的反馈循环中，模型提出了人类此前未曾注意的路径，最终推动问题被解决。

这里最重要的不是“AI独立证明了定理”——它还没到那一步——而是研究方式的变化。模型开始像一个极其耐心、记忆力无限、从不厌倦的合作者，快速试探可能性、排除死路、重组思路。这种能力，一旦进入数学研究，就意味着范式的松动。

为什么“会数学”被认为是通向AGI的必经之路

播客中一个反复出现的判断是：如果没有真正的数学能力，就谈不上AGI。这听起来抽象，但逻辑非常硬。

数学并不只是数字，它是最纯粹的结构化思维训练。每一个定理，都是在约束条件下进行严格推理；每一次证明，都是在有限信息中构建必然结论。Sebastian 直言，模型在数学上的进展，几乎可以直接映射到它在“逻辑一致性”和“长程规划”上的进步。

换句话说，数学不是一个应用领域，而是一种底层能力测试。当模型能在这里站住脚，它在代码、科学发现、复杂决策上的能力上限，都会被整体抬高。这也是为什么研究者会说：数学不是附加项，而是通向AGI的地基。

ChatGPT登场后，99%的人第一次拥有“研究助理”

一个很现实的变化发生在2023年初。ChatGPT 出现后，研究级工具第一次向非专家开放。播客里提到一句很有冲击力的话：对99%的人来说，模型已经“够用了”。

这里的“够用”，并不是替代专家，而是把原本极高门槛的认知劳动，压缩成可对话、可试错的过程。你不需要完整掌握一个领域几十年的积累，也能借助模型快速进入状态。这对数学尤其明显：它降低的不是难度，而是进入难度。

更重要的是反馈循环。模型提出想法，人类判断、修正，再喂回模型。这种高速往返，正是数学研究中最昂贵、也最耗人的部分。现在，它被极大加速了。

当AI开始“发明数学”，人类该做什么

播客后半段出现了一个令人既兴奋又不安的判断：我们已经看到AI“发明新数学”的微光。这不是噱头，而是指模型开始在既有体系外，提出新结构、新视角。

但研究者的态度并不悲观。相反，他们认为这会让数学变得“更好玩”。因为当基础推理被加速，人类可以把精力投入到更高层次的问题选择、价值判断和跨领域连接上。

一个反直觉的结论是：我们不是需要更少科学家，而是更多。只是科学家的工作重心，会从“推导细节”，转向“提出好问题”。这正是人类最难被替代的地方。

总结

这期播客释放的核心信号很明确：AI在数学上的突破，不是一个小众技术进展，而是整个智能曲线的拐点。如果你是AI从业者，这意味着要重新审视“推理”“反馈循环”和“工具协作”的价值；如果你是研究者，这意味着尽早学会把模型当作合作者，而不是工具。真正的问题不再是“AI能不能做数学”，而是当它越来越擅长时，你准备好如何与它一起思考了吗？

关键词：大语言模型，数学推理，通用人工智能， ChatGPT， OpenAI

事实核查备注：需要核查：1）播客发布时间与期数（Ep.17）；2）Sebastian Bubeck 与 Ernest Ryu 的研究背景；3）“42年优化理论开放问题”是否在播客中明确描述；4）“超过50页思考量”的原话表述；5）关于AI接近研究级数学与AGI关系的原始表述。

返回文章列表