从一分钟到八年：OpenAI如何用推理逼近爱因斯坦

AI PM 编辑部 · 2025年05月08日 · 16 阅读 · AI/人工智能

Yann LeCun 强化学习模型训练预训练推理 AI推理 AI Agent GPT-4 GPT-4o o1

正在加载视频...

视频章节

OpenAI研究员Dan Roberts用一次极具想象力的演讲，解释了为什么“推理”正在成为AI下一阶段的核心扩展维度。从test-time compute到强化学习主导训练，再到“9年内发现广义相对论”的大胆预测，这场分享揭示了通往AGI的一条非共识路径。

从一分钟到八年：OpenAI如何用推理逼近爱因斯坦

OpenAI研究员Dan Roberts用一次极具想象力的演讲，解释了为什么“推理”正在成为AI下一阶段的核心扩展维度。从test-time compute到强化学习主导训练，再到“9年内发现广义相对论”的大胆预测，这场分享揭示了通往AGI的一条非共识路径。

从红杉到OpenAI：一位“推理布道者”的意外登场

这场演讲一开始，并不是技术，而是一个带着尴尬和幽默的真实故事。主持人回忆，Dan Roberts当年还在红杉资本时，悄悄决定加入OpenAI，却在AI Ascent现场被当众“官宣”。“Saw his face… he was pretty mortified。”这段插曲让台下大笑，也迅速拉近了距离。

但真正重要的是，Dan并不是临时转向推理研究。主持人提到，在过去两到三年里，Dan一直在内部反复强调“reasoning”的重要性。换句话说，他不是追逐热点，而是长期押注一个当时并不主流的方向。这也为后面的技术判断埋下伏笔：今天OpenAI在推理模型上的激进投入，并非一时兴起，而是多年思考的结果。

o1与test-time compute：推理成为新的“扩展轴”

Dan很快切入核心技术。2024年9月，OpenAI发布了推理模型o1。左图并不新鲜：训练算力（train-time compute）越多，模型在数学推理基准上的表现越好。但右图才是真正的转折点——模型在“测试时”花更多时间思考，表现也会持续提升。

Dan强调，这是一个“全新的扩展维度”。模型不只是被动给答案，而是被教会在test-time进行多步推理、反复检查。“The more time it spent thinking， the more it would improve。”重要到什么程度？他们甚至把这句话印在了T恤上。

这意味着，AI能力不再完全受限于一次性训练完成后的权重，而是可以通过推理过程本身继续放大。这为后续的物理计算、科学发现，打开了一扇新的门。

一分钟算完量子电动力学：推理模型的真实演示

为了避免抽象，Dan给出了一个极具体的案例：量子电动力学计算。模型不仅“能看”，还能对纸面问题反复思考、放大细节、解析费曼图，最终在大约一分钟内给出正确答案。

这个对比极具冲击力。Dan坦言，在博客发布前，他被同事请去人工核查这道题。“It took me about 3 hours。”即便计算过程写在四本教材里，人类专家仍要逐步追踪符号和正负号。

这里的重点不是AI比人快，而是它已经能在test-time进行结构化、长链条的推理。这正是后文“爱因斯坦思想实验”的现实基础。

爱因斯坦思想实验：从一分钟到八年的尺度跃迁

演讲的高潮来自一个思想实验。Dan假设把问题抛给1907年的爱因斯坦，直接问他广义相对论的“期末考试题”。答案是：他当时给不出来——但八年后，他创造了广义相对论。

Dan用GPT‑4.5和o3做了类比测试，结果是：GPT‑4.5失败，o3成功。“Turns out GPT‑4.5 couldn’t get this right answer. We needed o3。”这不是嘲讽旧模型，而是强调推理深度的质变。

最后，他给出一个大胆外推：AI可连续执行任务的时长每7个月翻倍。要从“能思考一分钟”到“相当于八年人类研究”，需要约16次翻倍，也就是9年左右。“In 9 years we’re going to have a model that will discover general relativity.”

总结

Dan Roberts并没有给出OpenAI的具体路线图，但他反复强调了三件事：推理正在成为核心能力；强化学习和test-time compute将重塑训练结构；以及，AI的“思考时长”正在以指数速度增长。无论9年的预测是否准确，这场演讲至少提供了一种严肃而非科幻的AGI想象路径：不是更快给答案，而是更久、更深地思考。

关键词： AI推理， test-time compute，强化学习， OpenAI， AGI

事实核查备注：人物：Dan Roberts、Albert Einstein、Yann LeCun；公司：OpenAI、红杉资本；模型/产品：o1、o3、GPT-4.5、GPT-4、GPT-4o；关键数字：o1发布时间2024年9月；AI任务时长每7个月翻倍；16次翻倍≈9年；量子电动力学计算模型约1分钟，人类核查约3小时。

返回文章列表