从Q*到Strawberry：OpenAI真正想解决的不是聊天，而是“会规划的AI”

AI PM 编辑部 · 2024年07月16日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI内部一个被反复否认、又反复被曝光的项目，终于有了新名字：Strawberry。它不是更聪明的聊天机器人，而是一次对“推理、规划、长期任务”的正面进攻。这篇文章带你梳理Q*的前世今生，以及它为什么可能是Agent时代真正的起点。

OpenAI内部一个被反复否认、又反复被曝光的项目，终于有了新名字：Strawberry。它不是更聪明的聊天机器人，而是一次对“推理、规划、长期任务”的正面进攻。这篇文章带你梳理Q*的前世今生，以及它为什么可能是Agent时代真正的起点。

如果你回忆一下2023年11月那场“OpenAI董事会政变”，当时最大的谜团不是“Sam Altman为什么被炒”，而是——他们是不是已经做出了某种不该这么快出现的技术突破。

就在Altman被罢免前一天，他在一次峰会上说了一句后来被疯狂解读的话：OpenAI“把无知的面纱向后推了一点”。当时几乎没人注意，但事后，《The Information》和路透社的报道把这句话重新点燃——内部员工相信，那指向一个代号为Q*（Qar / Q-Star）的研究项目。

这个项目最早被描述得很“离谱”：只会做小学数学，却让研究员异常兴奋；能力有限，却引发了关于安全和商业化的激烈分歧。它甚至被传与Ilya Sutskever的立场变化有关。后来董事会否认、媒体打架、员工猜测，Q*变成了一个介于技术突破和都市传说之间的存在。

抛开戏剧性八卦，真正值得从业者关注的，是Q*被反复提及的一点能力：推理（reasoning）。

路透社和The Information都提到，Q*能稳定解决基础数学问题。这听起来很普通，但放在大模型语境里并不普通——因为传统LLM并不是“算不会”，而是“不知道什么时候该认真算”。它们依赖模式匹配和token预测，对多步逻辑极不稳定。

多位研究者的解读指向同一个方向：Q*不是更大的语言模型，而是引入了“规划”和“分步验证”的机制。Timothy B. Lee 引用了Yann LeCun的判断：真正的突破在于，用计划（planning）取代纯自回归预测。这意味着模型不只是生成答案，而是先拆解问题、再逐步推进、最后检查一致性。

换句话说，Q*的价值不在于‘算对了几道题’，而在于它第一次让LLM像是在“想事情”，而不是“续写文本”。

如果Q*只是一次研究尝试，那Strawberry显然是一个更具产品野心的版本。

路透社披露的内部文件显示，Strawberry的定位已经非常明确：为“深度研究（deep research）”服务。OpenAI希望它能够规划长时间、多步骤的任务，在互联网上自主浏览、收集信息、判断下一步行动。

这里有两个关键信号：第一，Strawberry被直接用于“long-horizon tasks”，这是Agent系统最难、也最核心的能力；第二，它将与计算机使用代理（CUA）结合，意味着模型不只是建议你怎么做，而是自己动手去做。

更重要的是，这已经不是秘密研究。Bloomberg报道称，OpenAI在全员大会上展示了具备“类人推理能力”的demo。一个在公司内部被广泛讨论的项目，通常意味着：它已经过了最脆弱的验证期。

几乎在Strawberry曝光的同时，OpenAI内部流出的“AI五级路线图”引发了巨大争议。从聊天机器人到Reasoner，再到Agent、Innovator、Organization，每一级都在定义“下一步该做什么”。

把Strawberry放进这个框架，一切突然清晰了：它对应的正是第二级向第三级过渡的关键节点——从“会回答问题”，到“能自己规划并完成问题”。

这也解释了为什么OpenAI在表面上异常安静，却在内部加速推进。Reasoning不是炫技功能，而是Agent、自动科研、自动编程的地基。如果这块不稳，后面全是空谈。

对AI从业者来说，Strawberry传递的信号很明确：下一阶段的竞争，不在参数规模，也不在对话体验，而在“谁能让模型可靠地想清楚再行动”。如果你做产品，这意味着要开始为长任务、可验证步骤设计系统；如果你做研究，这意味着planning、self-play、验证机制会持续升温。

一个值得你记住的判断是：当大家还在比谁的模型更会聊天时，OpenAI已经在为“不需要人盯着的AI”打地基了。真正的变化，往往就是这样安静发生的。

关键词： Strawberry， Q*， AI推理， AI Agent， OpenAI

事实核查备注：需要核查：1）Q*项目最早报道时间（2023年11月）；2）Sam Altman在Apex CEO Summit的原话语境；3）路透社关于Strawberry内部文件的具体描述；4）Bloomberg关于全员大会demo的报道；5）Yann LeCun推文的原文表述与时间。