o1 不是更快的 GPT-4，而是第一次真正“会思考”的模型

AI PM 编辑部 · 2024年09月13日 · 2 阅读 · AI/人工智能

Sam Altman AI推理 AI应用微调推理大语言模型 AI搜索 AI Agent 机器学习生成式AI

正在加载视频...

视频章节

OpenAI 悄悄放出的 o1，并不是参数更大的新模型，却让整个 AI 圈开始重新讨论“推理”这件事。它更慢、更犹豫，甚至在很多基础任务上不占优势，但它做对了一件以前模型几乎做不好的事：在回答之前，真的想了一会儿。

o1 不是更快的 GPT-4，而是第一次真正“会思考”的模型

OpenAI 悄悄放出的 o1，并不是参数更大的新模型，却让整个 AI 圈开始重新讨论“推理”这件事。它更慢、更犹豫，甚至在很多基础任务上不占优势，但它做对了一件以前模型几乎做不好的事：在回答之前，真的想了一会儿。

反直觉的升级：更慢的模型，反而更高级

如果你第一次看到 o1-preview 的界面，大概率会愣住：它不会立刻输出答案，而是明确告诉你——“Thinking…”。

在 Riley Brown 的视频里，这种体验几乎是反直觉的。过去几年，大模型的竞争核心只有一个：更快、更流畅、更像“自动补全”。GPT-4、Claude、Llama 都在这个方向上狂飙。但 o1 选择了另一条路：牺牲响应速度，换取推理深度。

更关键的是，OpenAI 反复强调：o1 不一定是“新模型”。它可能仍然是 GPT-4 级别的底座，但训练目标完全不同——不是更快给答案，而是在模型内部强制加入“思考步骤”。

这件事听起来简单，但行业里其实踩过无数坑。无论是 prompt chaining、LangChain，还是多模型协作，过去的“思考”几乎都是外挂式的，一不小心就陷入死循环。o1 的突破点在于：它能自己走出来。

它到底在想什么？没人说得清，但效果骗不了人

Riley 在视频里做了一个非常典型的测试：让 o1 规划一个“Notion 克隆”，覆盖全平台、法律风险、前后端技术选型。

o1 的反应不是直接给方案，而是展示了一段“推理轨迹”：法律合规、版权、UI 设计、技术栈……它看起来像是在拆解问题，而不是生成模板。

没人知道它底层是不是两个模型在来回对话，还是同一个模型自我反思。OpenAI 没公布，甚至连业内人士也只能猜。但从结果看，它已经明显不再是简单的 token 预测。

这也是为什么 Sam Altman 在公开表态中说得很保守：o1 在写文案、写邮件、基础代码上，不一定比 GPT-4 强。但在竞赛数学、复杂代码、博士级问题上，它的优势开始显现。

一句话总结：它不是更聪明，而是更“谨慎”。

o1 真正擅长的，并不是你现在最常用的任务

视频里有个很重要但容易被忽略的细节：o1 目前只“想”10–20 秒。

但这背后释放的信号是——思考时间是可以继续拉长的。几分钟、几小时，甚至“过夜”。这对哪些场景是质变？

答案很明确：
- 复杂信息抽取（比如上百封物流邮件里找关键状态）
- 大型代码重构（把 1000 行文件拆成合理模块）
- 长链路决策（从产品规划到商业化路径）

Riley 提到一个非常真实的例子：当代码已经被 AI 写到“失控”，你需要的不是更快生成，而是一个能停下来想清楚步骤的模型。o1 在这种任务上，明显比传统 GPT chaining 更稳定。

这也是为什么很多测试数据显示：o1 在编程上的胜率只有 60%，但输掉的 40% 并不代表它“更差”，而是不适合快节奏执行型开发。

o1-preview 和 o1-mini：真正的差异不在数据量

很多人关心：o1-preview 和 o1-mini 差在哪？

答案出乎意料地“朴素”：不是数据，不是训练集，而是推理规模。

模型大小的差异，直接影响的是：
- 推理速度
- 能承载的思考深度

o1-mini 更快，o1-preview 更“想得久”。这意味着，未来模型的竞争不再只是“谁参数多”，而是：

谁更愿意把算力花在思考上。

这也是一个非常重要的范式变化。过去 scaling laws 强调训练期算力，现在 o1 把焦点拉到了 inference time。

总结

如果你是 AI 从业者，o1 给你的最大启发不是“赶紧换模型”，而是重新思考什么时候该让模型慢下来。

执行型任务、批量生成、快速迭代，GPT-4 依然是性价比之王；但在项目最开始的 0→1 阶段、在复杂系统已经失控的时候、在你需要一个“不会急着给答案”的助手时，o1 展示了一条全新的可能性。

真正值得思考的问题是：当模型可以思考几小时甚至几天，人类的角色会变成什么？

也许不是写 prompt 的人，而是决定“值得思考什么”的人。

关键词： o1， AI推理， OpenAI， AI Agent，大语言模型

事实核查备注： 1. o1-preview 与 o1-mini 的命名与定位是否与 OpenAI 官方一致；2. Sam Altman 关于 o1 在基础任务上表现一般的公开表态来源；3. 编程胜率约 60% 的数据来源与测试方法；4. o1 的“thinking”展示是否为真实推理过程还是界面层提示。

返回文章列表