OpenAI o1 发布：它不是更快的 GPT，而是第一次“真的会想”

AI PM 编辑部 · 2024年09月12日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI 刚刚发布了 o1，一个会在回答前“思考 10–20 秒”的模型。它不追求秒回，而是用推理碾压复杂问题：数学、代码、科研、法律。更重要的是，这可能意味着大模型 scaling 的游戏规则，正在被彻底改写。

OpenAI 刚刚发布了 o1，一个会在回答前“思考 10–20 秒”的模型。它不追求秒回，而是用推理碾压复杂问题：数学、代码、科研、法律。更重要的是，这可能意味着大模型 scaling 的游戏规则，正在被彻底改写。

在整个大模型竞赛都围绕“更快、更便宜、更像人聊天”的时候，OpenAI 反其道而行之。o1 的核心卖点只有一句话：在回答之前，先想 10 到 20 秒。

这不是产品层面的“加个延迟”，而是模型能力的结构性变化。OpenAI 在官方表述中反复强调：o1 被训练成像人一样推理——尝试不同策略、发现错误、再修正，而不是一次性吐出答案。

这也解释了为什么 Sam Altman 和研究团队一边兴奋，一边刻意降温：o1 并不是在所有任务上都比 GPT-4o 强。很多日常写作、改文案、闲聊，根本不需要推理，等 20 秒反而是负担。但一旦问题足够“硬”，o1 就进入了另一个维度。

过去两年，业内已经习惯用提示工程逼模型“写出思考过程”。但 o1 的关键突破在于：Chain of Thought 不再只是你提示得好不好，而是模型在训练阶段就被强化学习成“必须思考”。

OpenAI 研究员 Gome Brown 直接点破：这是一个新的 scaling 范式。以前我们只能拼命扩大预训练算力，现在可以在推理阶段继续 scale——让模型多想一会儿，效果就上去。

这背后是 RL + 私有 Chain of Thought。用户看不到完整思考链，但模型自己在内部反复演算。Greg Brockman 分享的经典问题——“你对这条消息的第四个词是什么”——过去几乎是所有 LLM 的噩梦，o1 却一次命中。不是因为聪明，而是因为它真的在拆解指令、规划回答。

o1 最震撼的 demo，几乎都发生在代码、数学和科研场景。

零样本生成一个完整可玩的小游戏、推导复杂量子物理公式、辅助分析 N-of-1 医疗案例，这些例子有一个共同点：你没法靠“记住模式”解决，必须规划步骤。

Jason Wei 展示的代码案例尤其典型。o1 在输出代码前，先花了 21 秒规划游戏结构、约束条件和 UI 逻辑，最后一次性跑通。不是没 bug，而是明显少走了很多“低级弯路”。

这也是为什么在 OpenAI 的内部评测中：写作和编辑领域，o1 和 GPT-4o 差不多；但在编程、数据分析、数学计算上，o1 的人类偏好度明显拉开。Harvey 的法律团队给出的数据更狠：复杂法律问题上，大律师 70% 更偏好 o1。

很多人盯着 o1 preview，却忽略了 o1 mini。

OpenAI 的说法很直接：这是一个“非常聪明的小模型”，同样具备先推理再回答的能力，但推理成本大幅下降。在数学基准上，它在“性能 vs 推理成本”的位置，直接碾压 GPT-4o mini。

更夸张的是国际数学奥林匹克资格题：GPT-4o 正确率只有 13.3%，而推理模型达到 83%。这不是微调，是断层。

这意味着一件事：未来不是只有顶级模型才能推理，而是推理能力会下沉到更便宜、更可部署的模型中。

o1 不是一个“更好的聊天模型”，而是 OpenAI 明确押注的一条新路线：让模型在关键问题上花算力换思考。

对从业者来说，最重要的 takeaway 有三个：第一，别再用“简单 prompt”低估模型能力，去找真正困难的问题；第二，推理型模型更适合 agent、科研、法律、复杂系统设计；第三，未来的竞争不只是模型大小，而是谁更会“在推理阶段烧算力”。

如果你现在用 AI 只是为了快，那 GPT-4o 就够了。但如果你想让 AI 帮你想清楚一件复杂的事，o1 可能是第一次，让你意识到：这玩意儿真的开始不一样了。

关键词： OpenAI， o1， AI推理， Chain of Thought，强化学习

事实核查备注：需核查：o1 发布时间（2024-09-12）；推理时长 10–20 秒；IMO 资格题正确率（GPT-4o 13.3%，o1 83%）；Harvey 法律偏好度 70%；Greg Brockman 第四个词示例；o1 mini 的定位与性能对比。