OpenAI Strawberry 两周内上线,但可能是一次被迫加速的发布

AI PM 编辑部 · 2024年09月12日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

传了大半年的 OpenAI「Strawberry」终于要来了,但第一批体验者的反馈却异常克制:它会“先想 20 秒再回答”,答案却只好一点点。这不是一次简单的模型升级,而可能是 OpenAI 在竞争压力下的一次战略试探。

OpenAI Strawberry 两周内上线,但可能是一次被迫加速的发布

传了大半年的 OpenAI「Strawberry」终于要来了,但第一批体验者的反馈却异常克制:它会“先想 20 秒再回答”,答案却只好一点点。这不是一次简单的模型升级,而可能是 OpenAI 在竞争压力下的一次战略试探。

它不是更快的 ChatGPT,而是一个“先思考再说话”的模型

根据 The Information 的报道,OpenAI 计划在未来两周内,将 Strawberry 作为一个可选模型直接放进 ChatGPT。已经测试过的人给了一个很微妙的评价:它“很不一样”,但并不一定让人更爽。

Strawberry 最大的变化不是多模态、不是更大参数,而是推理方式。它在回答前会进入一个 10 到 20 秒的“思考阶段”,内部会显式进行推理搜索。这意味着你不再需要反复强调“请一步步思考”“展示你的 reasoning”,模型默认就会这么做。

这对很多专业用户是重大变化。数学题、代码问题、复杂决策,理论上都会更稳。但代价也很明显:慢。慢到哪怕是一个简单问题,它有时也会完整走完推理流程,让你对着加载状态发呆。这种体验,与我们已经习惯的“秒回 ChatGPT”,几乎是反直觉的。

“答案只好一点点”,却要多等 20 秒,值不值?

早期测试者的反馈,远没有“AGI 前夜”那么戏剧化。更常见的评价是:回答“略好”,但不惊艳。尤其是在一些简单问题上,等待 10 到 20 秒的心理成本被无限放大。

更微妙的是定价和限制。Strawberry 很可能不会是现有 Pro 套餐的无脑升级,而是伴随更严格的 rate limit,甚至出现更高价的层级,来换取更多调用次数。这意味着 OpenAI 可能默认它是一个“高价值、低频率”的模型,而不是日常聊天主力。

它还被寄予厚望的一点是“更好的记忆能力”,能更好地利用历史对话。但测试中,这一点并不稳定。有时候它确实能串起上下文,有时候却表现得像是刚失忆。这也让外界开始怀疑:Strawberry 是不是被推得有点急了?

真正的变量:这可能不是模型升级,而是路线之争

一个被反复提及的背景是 Google DeepMind 最近的论文——《Scaling LLM Test-Time Compute》。核心观点很直接:与其一味把模型做大,不如在推理阶段投入更多计算,通过搜索来换更好的结果。

从传闻看,Strawberry 正是这种“推理时计算(inference-time compute)”思路的产物。它不一定更大,但更“会想”。这也解释了为什么 OpenAI 对它的宣传异常低调——既没有大张旗鼓地喊“人类级推理”,也没有明确对标竞争对手。

一些观察者甚至认为,这是一种刻意的“压预期”。此前的内部传闻、外部泄漏,把 Strawberry 描绘得过于夸张;而现在放出的测试反馈,却像是在提前降温。如果这是一次有组织的放风,那说明 OpenAI 自己也不确定:市场是否已经准备好,为更慢但更稳的 AI 买单。

总结

Strawberry 的意义,可能不在于它“现在有多强”,而在于它指向的方向:AI 不再只拼参数和速度,而是开始认真对待“如何思考”。

对 AI 从业者来说,这里有三个现实 takeaway:第一,提示工程的重要性可能会下降,模型会逐步内化“该怎么想”;第二,用户体验的瓶颈,正在从“准不准”转向“值不值等”;第三,未来模型的差异,可能更多发生在推理策略,而不是训练规模。

如果 Strawberry 真在两周内上线,它更像一次公开实验,而不是一次完美发布。真正的问题是:当 AI 开始学会慢下来,我们这些习惯了即时反馈的人,愿不愿意一起等?


关键词: OpenAI Strawberry, AI推理, ChatGPT, 推理时计算, 大语言模型

事实核查备注: 1. Strawberry 上线时间:是否为“未来两周内”,需核查 The Information 原始报道发布时间
2. 推理等待时间:10–20 秒为测试者反馈,非官方数据
3. 定价与 rate limit:目前为传闻,OpenAI 尚未正式公布
4. Google DeepMind 论文标题与核心观点需核对原文
5. 所有测试评价均来自早期体验者转述,非 OpenAI 官方声明