AI突然会做数学了,这可能才是通向AGI最危险的一步

AI PM 编辑部 · 2026年04月28日 · 53 阅读 · AI/人工智能

正在加载视频...

视频章节

几年前还被群嘲“连小学算术都算不对”的大模型,如今已经开始碰触研究级数学,甚至参与解决42年未解的问题。OpenAI最新一期播客给出了一个极具冲击力的信号:AI真正的拐点,可能不是写作、画画,而是数学。

AI突然会做数学了,这可能才是通向AGI最危险的一步

几年前还被群嘲“连小学算术都算不对”的大模型,如今已经开始碰触研究级数学,甚至参与解决42年未解的问题。OpenAI最新一期播客给出了一个极具冲击力的信号:AI真正的拐点,可能不是写作、画画,而是数学。

从“数学笑话”到奥数级别,只用了四年

如果把时间拨回四五年前,数学几乎是大语言模型最尴尬的短板。模型能写诗、能聊天,但一到多步推理就崩溃,算错是常态。播客一开始,Andrew Mayne 直接点破这个反差:数学,曾经“几乎是个笑话”,如今却成了模型进步最快、也最关键的领域。

Sebastian Bubeck 提到,过去四年里,数学成了一个“完美的进度条”。原因很简单:数学没有模糊空间,对就是对,错就是错。正因为残酷,它反而成为观察模型是否真的在“思考”的最佳基准。从简单代数,到需要几十页推导的复杂问题,模型的能力曲线不再是缓慢爬坡,而是突然抬头。

一个细节很震撼:他们已经看到模型能够处理“超过50页思考量”的问题。这不是算力堆出来的花活,而是长链路推理能力的实质性突破。也正是在数学这个最不留情面的领域,研究者第一次感受到:这东西,好像真的不一样了。

真正的分水岭:AI开始触碰研究级数学

很多人对“AI会做数学”的理解,仍停留在刷题、解竞赛。但播客里反复强调的,是一个更危险也更激动人心的信号:模型正在逼近研究级数学。

Ernest Ryu 分享了一个关键时刻:当模型不再只是复现已知解法,而是能参与开放性问题的探索。最具代表性的例子,是一个存在了42年的优化理论开放问题。研究者把问题结构、已有思路不断与模型交互,在反复的反馈循环中,模型提出了人类此前未曾注意的路径,最终推动问题被解决。

这里最重要的不是“AI独立证明了定理”——它还没到那一步——而是研究方式的变化。模型开始像一个极其耐心、记忆力无限、从不厌倦的合作者,快速试探可能性、排除死路、重组思路。这种能力,一旦进入数学研究,就意味着范式的松动。

为什么“会数学”被认为是通向AGI的必经之路

播客中一个反复出现的判断是:如果没有真正的数学能力,就谈不上AGI。这听起来抽象,但逻辑非常硬。

数学并不只是数字,它是最纯粹的结构化思维训练。每一个定理,都是在约束条件下进行严格推理;每一次证明,都是在有限信息中构建必然结论。Sebastian 直言,模型在数学上的进展,几乎可以直接映射到它在“逻辑一致性”和“长程规划”上的进步。

换句话说,数学不是一个应用领域,而是一种底层能力测试。当模型能在这里站住脚,它在代码、科学发现、复杂决策上的能力上限,都会被整体抬高。这也是为什么研究者会说:数学不是附加项,而是通向AGI的地基。

ChatGPT登场后,99%的人第一次拥有“研究助理”

一个很现实的变化发生在2023年初。ChatGPT 出现后,研究级工具第一次向非专家开放。播客里提到一句很有冲击力的话:对99%的人来说,模型已经“够用了”。

这里的“够用”,并不是替代专家,而是把原本极高门槛的认知劳动,压缩成可对话、可试错的过程。你不需要完整掌握一个领域几十年的积累,也能借助模型快速进入状态。这对数学尤其明显:它降低的不是难度,而是进入难度。

更重要的是反馈循环。模型提出想法,人类判断、修正,再喂回模型。这种高速往返,正是数学研究中最昂贵、也最耗人的部分。现在,它被极大加速了。

当AI开始“发明数学”,人类该做什么

播客后半段出现了一个令人既兴奋又不安的判断:我们已经看到AI“发明新数学”的微光。这不是噱头,而是指模型开始在既有体系外,提出新结构、新视角。

但研究者的态度并不悲观。相反,他们认为这会让数学变得“更好玩”。因为当基础推理被加速,人类可以把精力投入到更高层次的问题选择、价值判断和跨领域连接上。

一个反直觉的结论是:我们不是需要更少科学家,而是更多。只是科学家的工作重心,会从“推导细节”,转向“提出好问题”。这正是人类最难被替代的地方。

总结

这期播客释放的核心信号很明确:AI在数学上的突破,不是一个小众技术进展,而是整个智能曲线的拐点。如果你是AI从业者,这意味着要重新审视“推理”“反馈循环”和“工具协作”的价值;如果你是研究者,这意味着尽早学会把模型当作合作者,而不是工具。真正的问题不再是“AI能不能做数学”,而是当它越来越擅长时,你准备好如何与它一起思考了吗?


关键词: 大语言模型, 数学推理, 通用人工智能, ChatGPT, OpenAI

事实核查备注: 需要核查:1)播客发布时间与期数(Ep.17);2)Sebastian Bubeck 与 Ernest Ryu 的研究背景;3)“42年优化理论开放问题”是否在播客中明确描述;4)“超过50页思考量”的原话表述;5)关于AI接近研究级数学与AGI关系的原始表述。