从o3到AGI：一场被过度放大的发布与真正的技术拐点

AI PM 编辑部 · 2025年01月21日 · 4 阅读 · AI/人工智能

Sam Altman 强化学习模型部署开源模型通用人工智能代码生成 AI推理 AI Agent DeepSeek Claude 3.5 Sonnet

正在加载视频...

视频章节

围绕OpenAI即将发布的o3推理模型，社交媒体迅速将其解读为“AGI前夜”。但视频指出，真正重要的并不是AGI是否到来，而是推理模型在成本、规模和Agent形态上的关键转折，以及中美模型竞争正在发生的结构性变化。

从o3到AGI：一场被过度放大的发布与真正的技术拐点

围绕OpenAI即将发布的o3推理模型，社交媒体迅速将其解读为“AGI前夜”。但视频指出，真正重要的并不是AGI是否到来，而是推理模型在成本、规模和Agent形态上的关键转折，以及中美模型竞争正在发生的结构性变化。

一条推文点燃的AGI狂热：为什么Sam Altman要亲自“降温”

这一切的起点，只是一条周五下午的推文。Sam Altman宣布，OpenAI的o3推理模型已经完成外部安全测试，“正在进入发布流程，计划几周内上线”。在AI圈，这样的措辞几乎等同于信号弹。很快，社交媒体被“o3=AGI”的判断淹没，甚至有人直接写下“准备迎接AGI”。

事情迅速失控到一个程度：Altman本人不得不下场参与评论区讨论，为预期“踩刹车”。当McKay Wrigley追问o3 mini与o1 Pro相比如何时，他明确回答：“在大多数事情上不如o1 Pro，但速度更快。”而当有人表达失望，希望有“比o1 Pro更聪明、愿意付费的模型”时，Altman又补了一句耐人寻味的话：“o3更聪明，我们正把注意力转向那个方向。”

真正的转折发生在周末之后。Altman再次发推，语气近乎无奈：“Twitter上的炒作又失控了。我们下个月不会部署AGI，也还没造出来。我们确实有很酷的东西，但请把预期降100倍。”这句话本身，成了视频中最重要的“金句”之一。

为什么这很重要？因为它揭示了一个反复出现的模式：OpenAI每一次推出关键模型，都会被自动套入“AGI叙事管道”。而Altman这次罕见地、反复地强调“不是AGI”，恰恰说明o3真正的价值，可能根本不在“智能上限”，而在别的地方。

75% ARC-AGI的真相：算力、成本与被忽略的前提条件

o3之所以会被视为“最像AGI的模型”，有一个无法回避的技术事实：它是第一个在ARC-AGI Benchmark上达到75%得分的模型。ARC-AGI被普遍认为是目前衡量“类通用智能”的最佳基准之一，强调抽象推理而非记忆。

但视频非常清楚地指出了一个常被忽略的前提：这个成绩来自完整模型，而且推理阶段使用了极其夸张的算力预算。官方ARC-AGI测试允许单次评测使用高达1万美元的推理成本；而非官方消息称，OpenAI内部甚至跑过超过10万美元推理预算的版本，成绩更高。

问题在于，这种算力水平根本不可能交付给公众用户。因此，即将发布的o3 mini，本质上是一个“缩小版、便宜版、可规模化”的推理模型，而不是那个刷榜的怪物版本。能力下降几乎是必然的。

这并不意味着o3 mini不重要。恰恰相反，Chubby等研究者反复强调，它的关键意义在于：在显著降低成本的同时，推理能力仍然超过完整的o1模型。视频提到，在中等算力配置下，o3 mini不仅比o1 mini略便宜，还在Codeforces等指标上领先完整o1超过100 ELO。

这意味着什么？意味着推理模型第一次开始具备“规模化经济性”。当更强的推理不再是极少数高价用户的特权，而是能被更多开发者、更多应用调用时，真正的范式转移才可能发生。

不是更聪明，而是更便宜：o3 mini背后的商业逻辑

视频中的一个判断非常尖锐：o3 mini的发布，与其说是技术炫耀，不如说是一次商业自救。有人直言，“o3 mini基本上就是更快的o1”，而真正的原因在于，o1的成本结构“已经很难再降，无法在不亏钱的情况下规模化”。

这也解释了为什么o3 mini会被优先推给OpenAI Pro用户——也就是每月支付200美元的人群。对OpenAI来说，推理模型如果不能在API层面被广泛使用，就无法形成正反馈。而o3 mini的目标用户，显然是开发者，而不是普通消费者。

多个具体案例让这一点变得非常生动。Henry Mau提出，如果o3 mini足够便宜，它可能会直接取代GPT-4o和Claude 3.5 Sonnet，成为日常编码的默认选择。应用开发者Blake C则给出了真实体验：o1 Pro有时修复一段代码要等5分钟，但效果确实比Sonnet好2到3倍。“如果o3 mini能在同样速度下比Sonnet强2倍，那就太疯狂了。”

TDM的总结点出了本质：这不是一次“更强模型”的发布，而是一次“让推理模型变得可负担”的尝试。当推理成本下降，应用场景自然扩散，而这本身，比单次性能提升更接近AGI叙事中的“关键路径”。

Agent暗线与中国变量：真正改变格局的或许不在o3

就在o3的讨论甚嚣尘上时，视频抛出了两条更值得警惕的暗线。第一条，是OpenAI的Agent计划。Axios报道称，Altman将受邀向特朗普政府简报，一家“顶级公司”即将发布“能释放博士级超级代理、执行复杂人类任务”的突破。报道援引OpenAI内部人士的话称，他们对最近的进展“既兴奋又害怕”。

几乎同时，社区在ChatGPT macOS客户端中发现了隐藏选项，可以切换名为“Operator”的功能——这正是OpenAI传闻中的通用Agent。更直接的证据是，OpenAI官网已经出现了Operator与Anthropic、Google Agent的对比页面。尽管泄露的基准测试显示其在某些任务上领先，但LEAP测试也表明，它成功完成“注册云服务并启动虚拟机”的概率只有60%。

第二条暗线，来自中国。就在同一个周末，DeepSeek发布了完全版R1推理模型，并且直接开源、可商用。在SBench Verified等编程任务上，R1与o1表现相当，但API成本不到o1的5%。更令人震撼的是，它可以在多台Mac mini组成的集群上本地运行。

伴随发布的技术论文披露，R1的推理能力主要来自后训练阶段的强化学习，而且在此之前几乎没有专门的微调。一位研究工程师感叹：“它像AlphaZero一样自己学会推理，我们面对的是外星心智，不只是工具。”这一进展，也直接触及了美国芯片出口管制背后的核心逻辑——全球竞争，正在加速。

总结

这期视频真正拆解的，并不是“o3是不是AGI”，而是AGI叙事如何一次次被套用在并不相同的技术节点上。o3 mini的意义，在于推理模型第一次真正走向可规模化；Agent的线索，暗示着能力形态的变化；而DeepSeek R1，则提醒所有人，突破不再只发生在硅谷。对读者而言，最重要的启发或许是：别被单次发布的“智能高度”迷惑，真正改变世界的，往往是成本曲线、产品形态和竞争格局的同步拐点。

关键词： o3模型， AGI炒作， AI推理成本， AI Agent， DeepSeek R1

事实核查备注： Sam Altman推文中关于o3发布节奏与“不是AGI”的表态；ARC-AGI Benchmark 75%得分及其高算力前提；ARC-AGI官方1万美元推理预算限制；o3 mini在Codeforces上领先o1超过100 ELO的说法；OpenAI Pro订阅价格200美元/月；LEAP测试中Agent约60%的成功率；DeepSeek R1与o1性能相当但成本低于5%；R1使用强化学习进行后训练并可在Mac mini集群运行。

返回文章列表