从一分钟到八年:OpenAI如何用推理逼近爱因斯坦

AI PM 编辑部 · 2025年05月08日 · 16 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI研究员Dan Roberts用一次极具想象力的演讲,解释了为什么“推理”正在成为AI下一阶段的核心扩展维度。从test-time compute到强化学习主导训练,再到“9年内发现广义相对论”的大胆预测,这场分享揭示了通往AGI的一条非共识路径。

从一分钟到八年:OpenAI如何用推理逼近爱因斯坦

OpenAI研究员Dan Roberts用一次极具想象力的演讲,解释了为什么“推理”正在成为AI下一阶段的核心扩展维度。从test-time compute到强化学习主导训练,再到“9年内发现广义相对论”的大胆预测,这场分享揭示了通往AGI的一条非共识路径。

从红杉到OpenAI:一位“推理布道者”的意外登场

这场演讲一开始,并不是技术,而是一个带着尴尬和幽默的真实故事。主持人回忆,Dan Roberts当年还在红杉资本时,悄悄决定加入OpenAI,却在AI Ascent现场被当众“官宣”。“Saw his face… he was pretty mortified。”这段插曲让台下大笑,也迅速拉近了距离。

但真正重要的是,Dan并不是临时转向推理研究。主持人提到,在过去两到三年里,Dan一直在内部反复强调“reasoning”的重要性。换句话说,他不是追逐热点,而是长期押注一个当时并不主流的方向。这也为后面的技术判断埋下伏笔:今天OpenAI在推理模型上的激进投入,并非一时兴起,而是多年思考的结果。

o1与test-time compute:推理成为新的“扩展轴”

Dan很快切入核心技术。2024年9月,OpenAI发布了推理模型o1。左图并不新鲜:训练算力(train-time compute)越多,模型在数学推理基准上的表现越好。但右图才是真正的转折点——模型在“测试时”花更多时间思考,表现也会持续提升。

Dan强调,这是一个“全新的扩展维度”。模型不只是被动给答案,而是被教会在test-time进行多步推理、反复检查。“The more time it spent thinking, the more it would improve。”重要到什么程度?他们甚至把这句话印在了T恤上。

这意味着,AI能力不再完全受限于一次性训练完成后的权重,而是可以通过推理过程本身继续放大。这为后续的物理计算、科学发现,打开了一扇新的门。

一分钟算完量子电动力学:推理模型的真实演示

为了避免抽象,Dan给出了一个极具体的案例:量子电动力学计算。模型不仅“能看”,还能对纸面问题反复思考、放大细节、解析费曼图,最终在大约一分钟内给出正确答案。

这个对比极具冲击力。Dan坦言,在博客发布前,他被同事请去人工核查这道题。“It took me about 3 hours。”即便计算过程写在四本教材里,人类专家仍要逐步追踪符号和正负号。

这里的重点不是AI比人快,而是它已经能在test-time进行结构化、长链条的推理。这正是后文“爱因斯坦思想实验”的现实基础。

爱因斯坦思想实验:从一分钟到八年的尺度跃迁

演讲的高潮来自一个思想实验。Dan假设把问题抛给1907年的爱因斯坦,直接问他广义相对论的“期末考试题”。答案是:他当时给不出来——但八年后,他创造了广义相对论。

Dan用GPT‑4.5和o3做了类比测试,结果是:GPT‑4.5失败,o3成功。“Turns out GPT‑4.5 couldn’t get this right answer. We needed o3。”这不是嘲讽旧模型,而是强调推理深度的质变。

最后,他给出一个大胆外推:AI可连续执行任务的时长每7个月翻倍。要从“能思考一分钟”到“相当于八年人类研究”,需要约16次翻倍,也就是9年左右。“In 9 years we’re going to have a model that will discover general relativity.”

总结

Dan Roberts并没有给出OpenAI的具体路线图,但他反复强调了三件事:推理正在成为核心能力;强化学习和test-time compute将重塑训练结构;以及,AI的“思考时长”正在以指数速度增长。无论9年的预测是否准确,这场演讲至少提供了一种严肃而非科幻的AGI想象路径:不是更快给答案,而是更久、更深地思考。


关键词: AI推理, test-time compute, 强化学习, OpenAI, AGI

事实核查备注: 人物:Dan Roberts、Albert Einstein、Yann LeCun;公司:OpenAI、红杉资本;模型/产品:o1、o3、GPT-4.5、GPT-4、GPT-4o;关键数字:o1发布时间2024年9月;AI任务时长每7个月翻倍;16次翻倍≈9年;量子电动力学计算模型约1分钟,人类核查约3小时。