ChatGPT o1 刚上线一天,就已经暴露出一件反直觉的事

AI PM 编辑部 · 2024年09月13日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

o1 不是更快、更聪明的 GPT-4o 升级版,而是一种“愿意多想一会儿”的模型。The AI Daily Brief 在第一时间测试后发现:如果你还用老方法提问,很可能完全用错了它。

ChatGPT o1 刚上线一天,就已经暴露出一件反直觉的事

o1 不是更快、更聪明的 GPT-4o 升级版,而是一种“愿意多想一会儿”的模型。The AI Daily Brief 在第一时间测试后发现:如果你还用老方法提问,很可能完全用错了它。

最反直觉的地方:o1 的价值,来自它“慢”

视频一开始就点破了一个很多人没预料到的事实:o1 最显著的变化不是答案更炫,而是“思考时间明显变长”。作者提到,社交媒体上已经有人调侃,这是他们见过“思考最久”的 ChatGPT。

但关键在于——这不是性能退化,而是模型设计目标发生了变化。o1 被训练成在复杂问题上进行更长链路的推理,而不是立刻给出一个看起来还不错的答案。换句话说,它更像一个会反复推敲的分析师,而不是反应飞快的客服。

这也直接颠覆了一个旧共识:过去我们追求“响应越快越好”,但在 o1 这里,慢一点,反而可能更值钱。

同一个问题,不同模型,答案风格差得离谱

为了验证这一点,视频中做了一个非常关键的对比:同一个提示词,同时丢给 GPT-4o 和 o1-preview。

结果并不是“o1 全面碾压”。GPT-4o 的输出依然流畅、结构清晰,非常适合快速生成内容;而 o1 的回答更像是在“自言自语式地拆解问题”,过程更长,结论更谨慎。

The AI Daily Brief 强调,这种差异并不是谁更强,而是谁更适合你的场景。如果你的目标是尽快得到一个可用方案,4o 依然高效;但如果你真正需要的是辅助决策、权衡利弊、或者在模糊问题中理清思路,o1 的价值才会显现出来。

提示工程正在悄悄失效?不,是门槛变高了

一个很容易被忽略的细节是:o1 对提示词的“容忍度”更低。

视频中提到,多位测试者(包括专注于 AI 商业应用的从业者)发现,如果你仍然用那种“给我一个总结 / 给我 10 条建议”的老式 prompt,o1 的优势几乎发挥不出来。

相反,当你明确告诉模型:你希望它比较方案、展示推理路径、或者在不确定条件下做判断时,它才开始真正发力。这意味着提示工程并没有消失,而是从“模板技巧”升级成了“问题建模能力”。你问得越像一个真正需要思考的人,o1 回答得就越像一个真正的助手。

还没有赢家,但方向已经很清楚了

视频最后给了一个相当克制、但很重要的判断:现在还谈不上 o1 是“明确的早期赢家”。它并不会取代 GPT-4o,至少在短期内不会。

但它确实推动了一件更大的事——让“长思考型模型”这条路线变得更可信。如果这种模型在更多场景中被验证有效,那么未来我们选择模型的标准,将不再只是参数量和速度,而是:你到底想让 AI 帮你想什么。

这不是一次简单的版本更新,而是一次使用范式的变化。

总结

对 AI 从业者来说,o1 最重要的启示不是“赶紧换模型”,而是重新审视你和模型的分工。如果你只是把 ChatGPT 当成更高级的搜索或写作工具,o1 可能让你失望;但如果你开始把它当成一个可以陪你拆问题、想清楚再下结论的合作者,它的价值才会出现。

接下来值得你自己测试的一件事是:把一个你真正拿不准的决策问题,分别交给 GPT-4o 和 o1-preview,看谁更像在“帮你想”,而不是“替你答”。


关键词: ChatGPT o1, o1-preview, GPT-4o, 提示工程, AI应用

事实核查备注: 需要核查:视频发布时间(2024-09-13);模型名称 o1 / o1-preview 的官方写法;是否明确提到对比使用的是 GPT-4o;引用的测试者是否有具体姓名(如 Ali Miller)及其原话表述。