从Q*到Strawberry:OpenAI真正想解决的不是聊天,而是“会规划的AI”

AI PM 编辑部 · 2024年07月16日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI内部一个被反复否认、又反复被曝光的项目,终于有了新名字:Strawberry。它不是更聪明的聊天机器人,而是一次对“推理、规划、长期任务”的正面进攻。这篇文章带你梳理Q*的前世今生,以及它为什么可能是Agent时代真正的起点。

从Q*到Strawberry:OpenAI真正想解决的不是聊天,而是“会规划的AI”

OpenAI内部一个被反复否认、又反复被曝光的项目,终于有了新名字:Strawberry。它不是更聪明的聊天机器人,而是一次对“推理、规划、长期任务”的正面进攻。这篇文章带你梳理Q*的前世今生,以及它为什么可能是Agent时代真正的起点。

一个代号,卷进了OpenAI最动荡的权力风暴

如果你回忆一下2023年11月那场“OpenAI董事会政变”,当时最大的谜团不是“Sam Altman为什么被炒”,而是——他们是不是已经做出了某种不该这么快出现的技术突破。

就在Altman被罢免前一天,他在一次峰会上说了一句后来被疯狂解读的话:OpenAI“把无知的面纱向后推了一点”。当时几乎没人注意,但事后,《The Information》和路透社的报道把这句话重新点燃——内部员工相信,那指向一个代号为Q*(Qar / Q-Star)的研究项目。

这个项目最早被描述得很“离谱”:只会做小学数学,却让研究员异常兴奋;能力有限,却引发了关于安全和商业化的激烈分歧。它甚至被传与Ilya Sutskever的立场变化有关。后来董事会否认、媒体打架、员工猜测,Q*变成了一个介于技术突破和都市传说之间的存在。

Q*到底新在哪?答案不是算得快,而是“会想步骤”

抛开戏剧性八卦,真正值得从业者关注的,是Q*被反复提及的一点能力:推理(reasoning)。

路透社和The Information都提到,Q*能稳定解决基础数学问题。这听起来很普通,但放在大模型语境里并不普通——因为传统LLM并不是“算不会”,而是“不知道什么时候该认真算”。它们依赖模式匹配和token预测,对多步逻辑极不稳定。

多位研究者的解读指向同一个方向:Q*不是更大的语言模型,而是引入了“规划”和“分步验证”的机制。Timothy B. Lee 引用了Yann LeCun的判断:真正的突破在于,用计划(planning)取代纯自回归预测。这意味着模型不只是生成答案,而是先拆解问题、再逐步推进、最后检查一致性。

换句话说,Q*的价值不在于‘算对了几道题’,而在于它第一次让LLM像是在“想事情”,而不是“续写文本”。

为什么改名叫Strawberry?因为目标已经变了

如果Q*只是一次研究尝试,那Strawberry显然是一个更具产品野心的版本。

路透社披露的内部文件显示,Strawberry的定位已经非常明确:为“深度研究(deep research)”服务。OpenAI希望它能够规划长时间、多步骤的任务,在互联网上自主浏览、收集信息、判断下一步行动。

这里有两个关键信号:第一,Strawberry被直接用于“long-horizon tasks”,这是Agent系统最难、也最核心的能力;第二,它将与计算机使用代理(CUA)结合,意味着模型不只是建议你怎么做,而是自己动手去做。

更重要的是,这已经不是秘密研究。Bloomberg报道称,OpenAI在全员大会上展示了具备“类人推理能力”的demo。一个在公司内部被广泛讨论的项目,通常意味着:它已经过了最脆弱的验证期。

这不是AGI,但它解释了OpenAI的下一步棋

几乎在Strawberry曝光的同时,OpenAI内部流出的“AI五级路线图”引发了巨大争议。从聊天机器人到Reasoner,再到Agent、Innovator、Organization,每一级都在定义“下一步该做什么”。

把Strawberry放进这个框架,一切突然清晰了:它对应的正是第二级向第三级过渡的关键节点——从“会回答问题”,到“能自己规划并完成问题”。

这也解释了为什么OpenAI在表面上异常安静,却在内部加速推进。Reasoning不是炫技功能,而是Agent、自动科研、自动编程的地基。如果这块不稳,后面全是空谈。

总结

对AI从业者来说,Strawberry传递的信号很明确:下一阶段的竞争,不在参数规模,也不在对话体验,而在“谁能让模型可靠地想清楚再行动”。如果你做产品,这意味着要开始为长任务、可验证步骤设计系统;如果你做研究,这意味着planning、self-play、验证机制会持续升温。

一个值得你记住的判断是:当大家还在比谁的模型更会聊天时,OpenAI已经在为“不需要人盯着的AI”打地基了。真正的变化,往往就是这样安静发生的。


关键词: Strawberry, Q*, AI推理, AI Agent, OpenAI

事实核查备注: 需要核查:1)Q*项目最早报道时间(2023年11月);2)Sam Altman在Apex CEO Summit的原话语境;3)路透社关于Strawberry内部文件的具体描述;4)Bloomberg关于全员大会demo的报道;5)Yann LeCun推文的原文表述与时间。