从o3到AGI:一场被过度放大的发布与真正的技术拐点

AI PM 编辑部 · 2025年01月21日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

围绕OpenAI即将发布的o3推理模型,社交媒体迅速将其解读为“AGI前夜”。但视频指出,真正重要的并不是AGI是否到来,而是推理模型在成本、规模和Agent形态上的关键转折,以及中美模型竞争正在发生的结构性变化。

从o3到AGI:一场被过度放大的发布与真正的技术拐点

围绕OpenAI即将发布的o3推理模型,社交媒体迅速将其解读为“AGI前夜”。但视频指出,真正重要的并不是AGI是否到来,而是推理模型在成本、规模和Agent形态上的关键转折,以及中美模型竞争正在发生的结构性变化。

一条推文点燃的AGI狂热:为什么Sam Altman要亲自“降温”

这一切的起点,只是一条周五下午的推文。Sam Altman宣布,OpenAI的o3推理模型已经完成外部安全测试,“正在进入发布流程,计划几周内上线”。在AI圈,这样的措辞几乎等同于信号弹。很快,社交媒体被“o3=AGI”的判断淹没,甚至有人直接写下“准备迎接AGI”。

事情迅速失控到一个程度:Altman本人不得不下场参与评论区讨论,为预期“踩刹车”。当McKay Wrigley追问o3 mini与o1 Pro相比如何时,他明确回答:“在大多数事情上不如o1 Pro,但速度更快。”而当有人表达失望,希望有“比o1 Pro更聪明、愿意付费的模型”时,Altman又补了一句耐人寻味的话:“o3更聪明,我们正把注意力转向那个方向。”

真正的转折发生在周末之后。Altman再次发推,语气近乎无奈:“Twitter上的炒作又失控了。我们下个月不会部署AGI,也还没造出来。我们确实有很酷的东西,但请把预期降100倍。”这句话本身,成了视频中最重要的“金句”之一。

为什么这很重要?因为它揭示了一个反复出现的模式:OpenAI每一次推出关键模型,都会被自动套入“AGI叙事管道”。而Altman这次罕见地、反复地强调“不是AGI”,恰恰说明o3真正的价值,可能根本不在“智能上限”,而在别的地方。

75% ARC-AGI的真相:算力、成本与被忽略的前提条件

o3之所以会被视为“最像AGI的模型”,有一个无法回避的技术事实:它是第一个在ARC-AGI Benchmark上达到75%得分的模型。ARC-AGI被普遍认为是目前衡量“类通用智能”的最佳基准之一,强调抽象推理而非记忆。

但视频非常清楚地指出了一个常被忽略的前提:这个成绩来自完整模型,而且推理阶段使用了极其夸张的算力预算。官方ARC-AGI测试允许单次评测使用高达1万美元的推理成本;而非官方消息称,OpenAI内部甚至跑过超过10万美元推理预算的版本,成绩更高。

问题在于,这种算力水平根本不可能交付给公众用户。因此,即将发布的o3 mini,本质上是一个“缩小版、便宜版、可规模化”的推理模型,而不是那个刷榜的怪物版本。能力下降几乎是必然的。

这并不意味着o3 mini不重要。恰恰相反,Chubby等研究者反复强调,它的关键意义在于:在显著降低成本的同时,推理能力仍然超过完整的o1模型。视频提到,在中等算力配置下,o3 mini不仅比o1 mini略便宜,还在Codeforces等指标上领先完整o1超过100 ELO。

这意味着什么?意味着推理模型第一次开始具备“规模化经济性”。当更强的推理不再是极少数高价用户的特权,而是能被更多开发者、更多应用调用时,真正的范式转移才可能发生。

不是更聪明,而是更便宜:o3 mini背后的商业逻辑

视频中的一个判断非常尖锐:o3 mini的发布,与其说是技术炫耀,不如说是一次商业自救。有人直言,“o3 mini基本上就是更快的o1”,而真正的原因在于,o1的成本结构“已经很难再降,无法在不亏钱的情况下规模化”。

这也解释了为什么o3 mini会被优先推给OpenAI Pro用户——也就是每月支付200美元的人群。对OpenAI来说,推理模型如果不能在API层面被广泛使用,就无法形成正反馈。而o3 mini的目标用户,显然是开发者,而不是普通消费者。

多个具体案例让这一点变得非常生动。Henry Mau提出,如果o3 mini足够便宜,它可能会直接取代GPT-4o和Claude 3.5 Sonnet,成为日常编码的默认选择。应用开发者Blake C则给出了真实体验:o1 Pro有时修复一段代码要等5分钟,但效果确实比Sonnet好2到3倍。“如果o3 mini能在同样速度下比Sonnet强2倍,那就太疯狂了。”

TDM的总结点出了本质:这不是一次“更强模型”的发布,而是一次“让推理模型变得可负担”的尝试。当推理成本下降,应用场景自然扩散,而这本身,比单次性能提升更接近AGI叙事中的“关键路径”。

Agent暗线与中国变量:真正改变格局的或许不在o3

就在o3的讨论甚嚣尘上时,视频抛出了两条更值得警惕的暗线。第一条,是OpenAI的Agent计划。Axios报道称,Altman将受邀向特朗普政府简报,一家“顶级公司”即将发布“能释放博士级超级代理、执行复杂人类任务”的突破。报道援引OpenAI内部人士的话称,他们对最近的进展“既兴奋又害怕”。

几乎同时,社区在ChatGPT macOS客户端中发现了隐藏选项,可以切换名为“Operator”的功能——这正是OpenAI传闻中的通用Agent。更直接的证据是,OpenAI官网已经出现了Operator与Anthropic、Google Agent的对比页面。尽管泄露的基准测试显示其在某些任务上领先,但LEAP测试也表明,它成功完成“注册云服务并启动虚拟机”的概率只有60%。

第二条暗线,来自中国。就在同一个周末,DeepSeek发布了完全版R1推理模型,并且直接开源、可商用。在SBench Verified等编程任务上,R1与o1表现相当,但API成本不到o1的5%。更令人震撼的是,它可以在多台Mac mini组成的集群上本地运行。

伴随发布的技术论文披露,R1的推理能力主要来自后训练阶段的强化学习,而且在此之前几乎没有专门的微调。一位研究工程师感叹:“它像AlphaZero一样自己学会推理,我们面对的是外星心智,不只是工具。”这一进展,也直接触及了美国芯片出口管制背后的核心逻辑——全球竞争,正在加速。

总结

这期视频真正拆解的,并不是“o3是不是AGI”,而是AGI叙事如何一次次被套用在并不相同的技术节点上。o3 mini的意义,在于推理模型第一次真正走向可规模化;Agent的线索,暗示着能力形态的变化;而DeepSeek R1,则提醒所有人,突破不再只发生在硅谷。对读者而言,最重要的启发或许是:别被单次发布的“智能高度”迷惑,真正改变世界的,往往是成本曲线、产品形态和竞争格局的同步拐点。


关键词: o3模型, AGI炒作, AI推理成本, AI Agent, DeepSeek R1

事实核查备注: Sam Altman推文中关于o3发布节奏与“不是AGI”的表态;ARC-AGI Benchmark 75%得分及其高算力前提;ARC-AGI官方1万美元推理预算限制;o3 mini在Codeforces上领先o1超过100 ELO的说法;OpenAI Pro订阅价格200美元/月;LEAP测试中Agent约60%的成功率;DeepSeek R1与o1性能相当但成本低于5%;R1使用强化学习进行后训练并可在Mac mini集群运行。