OpenAI DevDay 放出 o1:不是更快的模型,而是会“反复想错再想对”的模型
正在加载视频...
视频章节
如果你还在用“更大模型=更聪明”理解 AI,这场 DevDay 可能会颠覆你。OpenAI 公布的 o1,不靠更快输出,而是靠“愿意思考、敢于试错”。它在最难的数学和代码题上碾压 GPT-4o,但代价是更慢、更贵。这不是一次升级,而是一次范式切换。
OpenAI DevDay 放出 o1:不是更快的模型,而是会“反复想错再想对”的模型
如果你还在用“更大模型=更聪明”理解 AI,这场 DevDay 可能会颠覆你。OpenAI 公布的 o1,不靠更快输出,而是靠“愿意思考、敢于试错”。它在最难的数学和代码题上碾压 GPT-4o,但代价是更慢、更贵。这不是一次升级,而是一次范式切换。
o1 最反直觉的一点:它被训练去“浪费算力”
在 DevDay 上,Hung Won 一句话点破了 o1 的本质:它不是生成模型,而是“推理模型”。o1 在训练中通过强化学习,被鼓励反复尝试不同思路,哪怕一开始是错的。
这和我们熟悉的 GPT 系列完全不同。过去的模型更像“第一反应选手”,追求一次性给出看起来最合理的答案;而 o1 更像一个耐心的解题者:先试一个方法,发现行不通,再换策略,逐步逼近正确解法。
在密码破译的例子中,模型会明确表现出“这个思路不太对”“等等,换个方法试试”“我们来验证这个假设”这样的推理轨迹。重要的不是某一步多聪明,而是它能识别失败,并从失败中调整策略。
OpenAI 的态度也很明确:这种‘慢想’不是副作用,而是核心能力。o1 被允许,也被鼓励,在困难问题上花更多时间思考。
为什么 OpenAI 说这是“新范式”,而不是一个新型号
Hung Won 在演讲中反复强调:o1 不是性能曲线上的一个点,而是一次范式转移。
关键不在于 o1 今天能解多少题,而在于它让一些“以前不值得做的事情”变得值得做。OpenAI 提出一个非常值得玩味的问题:如果推理能力整体提升 50%,你现在正在做的哪些产品,其实根本不该再做?
这背后是一个残酷但真实的经验:随着模型变聪明,很多曾经被当作“核心难点”的问题,会直接变成平凡能力。如果你还在围绕旧限制设计系统,很可能在下一代模型面前瞬间过时。
和以往不同的是,o1 的进化路径相对清晰:它不会突然多会聊天,而是会在所有需要“思考”的地方持续变强——数学、逻辑、代码、复杂决策。也正因为如此,OpenAI 鼓励开发者用“未来模型”的视角来设计今天的产品。
数据说话:o1 在哪些地方直接碾压 GPT-4o
Jason 给出了非常直白的评测结果。
在 AIME(竞赛数学)和 Codeforces(算法竞赛)中,GPT-4o 和 o1-preview 只能勉强解决少量题目,而 o1 能解决数据集中的大多数问题。这不是小幅领先,而是“有解”和“几乎无解”的差别。
更大规模的评测也显示出明确边界:在大学数学、物理、LSAT 等高推理强度任务中,o1-preview 相比 GPT-4o 有显著提升;但在 AP 英语、文学、SAT、公共关系这类偏语言表达的任务上,优势并不明显。
结论很现实:o1 并不是万能替代品。如果你追求低延迟、低成本,或者主要做内容生成,GPT-4o 依然是性价比之选;但一旦问题“难到需要认真想”,o1 就进入了自己的主场。
o1-preview、o1-mini 怎么选?这是给工程师的答案
很多人忽略了一个细节:o1-mini 并不是“缩水版”。
在推理成本 vs 性能的图中,o1-mini 在竞赛数学上的表现,竟然严格优于 o1-preview。这是因为 OpenAI 有意把它打磨成“更快、更便宜、专攻数学和代码”的模型。
Jason 给出的建议非常工程化:如果你在做数学或编程任务,且对成本和响应时间敏感,优先选 o1-mini;如果任务更泛化,或者需要更稳妥的推理质量,再考虑 o1-preview。
在真实应用中,o1-preview 已经被用于医学诊断一致性检查、复杂代码生成(如 Cursor)、硬科学研究,以及法律和数学问题的头脑风暴。这些场景的共同点只有一个:错一次没关系,但必须能想明白。
总结
OpenAI 在 DevDay 传递的信息其实很直接:AI 的下一步,不是“说得更像人”,而是“想得更像一个认真解题的人”。o1 的慢、贵,并不是缺点,而是它愿意为高难度问题付出的成本。
对从业者来说,真正的 takeaway 有两个:第一,开始区分“生成型任务”和“推理型任务”,别再用同一把锤子敲所有钉子;第二,审视你正在解决的问题——它是真的长期难题,还是只是模型还不够聪明的暂时难题?
也许几年后回头看,o1 不会因为某个分数被记住,而是因为它让整个行业第一次认真思考:当模型真的会思考时,我们还该做什么、不该做什么。
关键词: OpenAI, o1, AI推理, 强化学习, 代码生成
事实核查备注: 需要核查:1)o1、o1-preview、o1-mini 在 AIME 和 Codeforces 上的相对表现描述;2)o1-mini 在竞赛数学上优于 o1-preview 的说法;3)DevDay 2024 的发布时间与视频标题;4)提到的具体评测基准名称(AIME、LSAT 等)。