o1 不是更快的 GPT-4,而是第一次真正“会思考”的模型
正在加载视频...
视频章节
OpenAI 悄悄放出的 o1,并不是参数更大的新模型,却让整个 AI 圈开始重新讨论“推理”这件事。它更慢、更犹豫,甚至在很多基础任务上不占优势,但它做对了一件以前模型几乎做不好的事:在回答之前,真的想了一会儿。
o1 不是更快的 GPT-4,而是第一次真正“会思考”的模型
OpenAI 悄悄放出的 o1,并不是参数更大的新模型,却让整个 AI 圈开始重新讨论“推理”这件事。它更慢、更犹豫,甚至在很多基础任务上不占优势,但它做对了一件以前模型几乎做不好的事:在回答之前,真的想了一会儿。
反直觉的升级:更慢的模型,反而更高级
如果你第一次看到 o1-preview 的界面,大概率会愣住:它不会立刻输出答案,而是明确告诉你——“Thinking…”。
在 Riley Brown 的视频里,这种体验几乎是反直觉的。过去几年,大模型的竞争核心只有一个:更快、更流畅、更像“自动补全”。GPT-4、Claude、Llama 都在这个方向上狂飙。但 o1 选择了另一条路:牺牲响应速度,换取推理深度。
更关键的是,OpenAI 反复强调:o1 不一定是“新模型”。它可能仍然是 GPT-4 级别的底座,但训练目标完全不同——不是更快给答案,而是在模型内部强制加入“思考步骤”。
这件事听起来简单,但行业里其实踩过无数坑。无论是 prompt chaining、LangChain,还是多模型协作,过去的“思考”几乎都是外挂式的,一不小心就陷入死循环。o1 的突破点在于:它能自己走出来。
它到底在想什么?没人说得清,但效果骗不了人
Riley 在视频里做了一个非常典型的测试:让 o1 规划一个“Notion 克隆”,覆盖全平台、法律风险、前后端技术选型。
o1 的反应不是直接给方案,而是展示了一段“推理轨迹”:法律合规、版权、UI 设计、技术栈……它看起来像是在拆解问题,而不是生成模板。
没人知道它底层是不是两个模型在来回对话,还是同一个模型自我反思。OpenAI 没公布,甚至连业内人士也只能猜。但从结果看,它已经明显不再是简单的 token 预测。
这也是为什么 Sam Altman 在公开表态中说得很保守:o1 在写文案、写邮件、基础代码上,不一定比 GPT-4 强。但在竞赛数学、复杂代码、博士级问题上,它的优势开始显现。
一句话总结:它不是更聪明,而是更“谨慎”。
o1 真正擅长的,并不是你现在最常用的任务
视频里有个很重要但容易被忽略的细节:o1 目前只“想”10–20 秒。
但这背后释放的信号是——思考时间是可以继续拉长的。几分钟、几小时,甚至“过夜”。这对哪些场景是质变?
答案很明确:
- 复杂信息抽取(比如上百封物流邮件里找关键状态)
- 大型代码重构(把 1000 行文件拆成合理模块)
- 长链路决策(从产品规划到商业化路径)
Riley 提到一个非常真实的例子:当代码已经被 AI 写到“失控”,你需要的不是更快生成,而是一个能停下来想清楚步骤的模型。o1 在这种任务上,明显比传统 GPT chaining 更稳定。
这也是为什么很多测试数据显示:o1 在编程上的胜率只有 60%,但输掉的 40% 并不代表它“更差”,而是不适合快节奏执行型开发。
o1-preview 和 o1-mini:真正的差异不在数据量
很多人关心:o1-preview 和 o1-mini 差在哪?
答案出乎意料地“朴素”:不是数据,不是训练集,而是推理规模。
模型大小的差异,直接影响的是:
- 推理速度
- 能承载的思考深度
o1-mini 更快,o1-preview 更“想得久”。这意味着,未来模型的竞争不再只是“谁参数多”,而是:
谁更愿意把算力花在思考上。
这也是一个非常重要的范式变化。过去 scaling laws 强调训练期算力,现在 o1 把焦点拉到了 inference time。
总结
如果你是 AI 从业者,o1 给你的最大启发不是“赶紧换模型”,而是重新思考什么时候该让模型慢下来。
执行型任务、批量生成、快速迭代,GPT-4 依然是性价比之王;但在项目最开始的 0→1 阶段、在复杂系统已经失控的时候、在你需要一个“不会急着给答案”的助手时,o1 展示了一条全新的可能性。
真正值得思考的问题是:当模型可以思考几小时甚至几天,人类的角色会变成什么?
也许不是写 prompt 的人,而是决定“值得思考什么”的人。
关键词: o1, AI推理, OpenAI, AI Agent, 大语言模型
事实核查备注: 1. o1-preview 与 o1-mini 的命名与定位是否与 OpenAI 官方一致;2. Sam Altman 关于 o1 在基础任务上表现一般的公开表态来源;3. 编程胜率约 60% 的数据来源与测试方法;4. o1 的“thinking”展示是否为真实推理过程还是界面层提示。