OpenAI o1 发布:它不是更快的 GPT,而是第一次“真的会想”
正在加载视频...
视频章节
OpenAI 刚刚发布了 o1,一个会在回答前“思考 10–20 秒”的模型。它不追求秒回,而是用推理碾压复杂问题:数学、代码、科研、法律。更重要的是,这可能意味着大模型 scaling 的游戏规则,正在被彻底改写。
OpenAI o1 发布:它不是更快的 GPT,而是第一次“真的会想”
OpenAI 刚刚发布了 o1,一个会在回答前“思考 10–20 秒”的模型。它不追求秒回,而是用推理碾压复杂问题:数学、代码、科研、法律。更重要的是,这可能意味着大模型 scaling 的游戏规则,正在被彻底改写。
这次发布最反直觉的点:OpenAI 主动让模型变“慢”了
在整个大模型竞赛都围绕“更快、更便宜、更像人聊天”的时候,OpenAI 反其道而行之。o1 的核心卖点只有一句话:在回答之前,先想 10 到 20 秒。
这不是产品层面的“加个延迟”,而是模型能力的结构性变化。OpenAI 在官方表述中反复强调:o1 被训练成像人一样推理——尝试不同策略、发现错误、再修正,而不是一次性吐出答案。
这也解释了为什么 Sam Altman 和研究团队一边兴奋,一边刻意降温:o1 并不是在所有任务上都比 GPT-4o 强。很多日常写作、改文案、闲聊,根本不需要推理,等 20 秒反而是负担。但一旦问题足够“硬”,o1 就进入了另一个维度。
从“提示 Chain of Thought”到“模型内部真的会推理”
过去两年,业内已经习惯用提示工程逼模型“写出思考过程”。但 o1 的关键突破在于:Chain of Thought 不再只是你提示得好不好,而是模型在训练阶段就被强化学习成“必须思考”。
OpenAI 研究员 Gome Brown 直接点破:这是一个新的 scaling 范式。以前我们只能拼命扩大预训练算力,现在可以在推理阶段继续 scale——让模型多想一会儿,效果就上去。
这背后是 RL + 私有 Chain of Thought。用户看不到完整思考链,但模型自己在内部反复演算。Greg Brockman 分享的经典问题——“你对这条消息的第四个词是什么”——过去几乎是所有 LLM 的噩梦,o1 却一次命中。不是因为聪明,而是因为它真的在拆解指令、规划回答。
为什么程序员和研究员会第一时间被 o1 吸引
o1 最震撼的 demo,几乎都发生在代码、数学和科研场景。
零样本生成一个完整可玩的小游戏、推导复杂量子物理公式、辅助分析 N-of-1 医疗案例,这些例子有一个共同点:你没法靠“记住模式”解决,必须规划步骤。
Jason Wei 展示的代码案例尤其典型。o1 在输出代码前,先花了 21 秒规划游戏结构、约束条件和 UI 逻辑,最后一次性跑通。不是没 bug,而是明显少走了很多“低级弯路”。
这也是为什么在 OpenAI 的内部评测中:写作和编辑领域,o1 和 GPT-4o 差不多;但在编程、数据分析、数学计算上,o1 的人类偏好度明显拉开。Harvey 的法律团队给出的数据更狠:复杂法律问题上,大律师 70% 更偏好 o1。
o1 mini 被低估了:真正改变成本曲线的可能是它
很多人盯着 o1 preview,却忽略了 o1 mini。
OpenAI 的说法很直接:这是一个“非常聪明的小模型”,同样具备先推理再回答的能力,但推理成本大幅下降。在数学基准上,它在“性能 vs 推理成本”的位置,直接碾压 GPT-4o mini。
更夸张的是国际数学奥林匹克资格题:GPT-4o 正确率只有 13.3%,而推理模型达到 83%。这不是微调,是断层。
这意味着一件事:未来不是只有顶级模型才能推理,而是推理能力会下沉到更便宜、更可部署的模型中。
总结
o1 不是一个“更好的聊天模型”,而是 OpenAI 明确押注的一条新路线:让模型在关键问题上花算力换思考。
对从业者来说,最重要的 takeaway 有三个:第一,别再用“简单 prompt”低估模型能力,去找真正困难的问题;第二,推理型模型更适合 agent、科研、法律、复杂系统设计;第三,未来的竞争不只是模型大小,而是谁更会“在推理阶段烧算力”。
如果你现在用 AI 只是为了快,那 GPT-4o 就够了。但如果你想让 AI 帮你想清楚一件复杂的事,o1 可能是第一次,让你意识到:这玩意儿真的开始不一样了。
关键词: OpenAI, o1, AI推理, Chain of Thought, 强化学习
事实核查备注: 需核查:o1 发布时间(2024-09-12);推理时长 10–20 秒;IMO 资格题正确率(GPT-4o 13.3%,o1 83%);Harvey 法律偏好度 70%;Greg Brockman 第四个词示例;o1 mini 的定位与性能对比。