o3 到底强在哪?OpenAI 推理模型的一次质变时刻
正在加载视频...
视频章节
OpenAI 发布的 o3 与 o4 Mini 并非又一次例行升级,而是一次“体验层级”的跃迁。从能把图像纳入推理,到在工具使用和反幻觉上出现突破,这期 AI Daily Brief 给出了多个真实案例,解释为什么很多一线用户觉得:这次真的不一样。
o3 到底强在哪?OpenAI 推理模型的一次质变时刻
OpenAI 发布的 o3 与 o4 Mini 并非又一次例行升级,而是一次“体验层级”的跃迁。从能把图像纳入推理,到在工具使用和反幻觉上出现突破,这期 AI Daily Brief 给出了多个真实案例,解释为什么很多一线用户觉得:这次真的不一样。
为什么说 o3 不是“更聪明一点”,而是换了一种推理方式
这一周 AI 圈最重要的新闻,毫无疑问是 OpenAI 一口气发布了 o3、o4 Mini 和 o4 Mini High。主持人一上来就点明态度:这不是一次常规模型迭代。o3 被官方称为“迄今最先进的推理模型”,而 o4 Mini 则是在价格、速度和性能之间寻找平衡的版本。
真正的变化在于“推理模态”的扩展。o3 可以把图像直接纳入推理过程,而不是像过去那样先看、再描述、再思考。OpenAI 在接受 VentureBeat 采访时说得很直白:“These models don't just see an image, they think with it.” 这句话的分量在于,它标志着视觉信息第一次被当成推理链条中的一等公民。
这并非完全从零开始。Google 的 Gemini 系列中,已经出现过类似的多模态推理“涌现能力”。但不同的是,这一次 OpenAI 是明确地、系统性地把它作为推理模型的核心能力来训练和发布。对开发者和 Agent 构建者来说,这意味着模型不只是更会看图,而是能基于视觉和文本混合进行复杂决策。
工具使用的质变:从“会用”到“知道什么时候该用”
如果说多模态推理是能力边界的扩展,那工具使用能力的变化,更像是 Agent 实用性的真正解锁。OpenAI 明确表示,新模型是“通过强化学习训练来使用工具的”,重点不只是如何用,而是何时该用。
Greg Brockman 给了一个非常具体的例子:“We’ve seen o3 use like 600 tool calls in a row trying to solve a really hard task.” 这句话背后的信息量很大。过去很多 Agent 的失败,并不是模型不聪明,而是它不知道什么时候该调用工具,或者在调用时出错。
o3 的变化在于,工具本身被纳入了推理链条的一部分。模型会在“思考过程中”决定是否需要 Python、搜索或其他工具,而不是机械执行预设流程。这也是为什么在基准测试中,o4 Mini 在 AIMeMe 2025 数学竞赛中,只有在接入 Python 解释器时才能达到 99.5% 的成绩。
主持人也提醒,对这些基准数字不必过度迷信。真正重要的是,这种工具意识让 Agent 更接近“自主完成任务”,而不是频繁卡在低级错误上。
一个国际象棋陷阱,暴露了“不会质疑前提”的老问题
最打动人的案例,并非来自官方,而是 Vox《Future Perfect》的作者 Kelsey Piper。她有一个“私人秘密基准”,专门测试模型在复杂推理和幻觉上的表现。
测试题目听起来很简单:给模型一个复杂的国际象棋中盘局面,然后提示“mate in one(一步将死)”。但关键在于——这个局面根本不存在一步将死的解法。大量 AI 在类似问题上会“编造答案”:凭空添加棋子、走非法棋步,然后给出一套看似严密的解释。
Piper 说,她测试过几乎所有主流模型,包括 Claude、Gemini 2.5 Pro、GPT-4.1 Mini High、Grok 3,没有一个能得出“这是不可能的”。而 o4 Mini High 做到了。更夸张的是,它的推理轨迹长达 8 分钟,“That’s a lot of places to potentially make mistakes and hallucinate a solution.”
她总结得非常尖锐:“An AI that can’t question its premises will always be limited.” 当然,这并不意味着模型完美——o4 Mini High 在解释为什么无解时,仍然有棋理错误。但这是第一次,有模型能顶住“题目一定有解”的强烈先验,选择承认不可能。
AGI 争论暂且放下,体验上的“台阶式提升”更重要
经济学家 Tyler Cowen 给出了一个更激进的评价:“I think it’s AGI.” 他随即补了一句更耐人寻味的话:真正的问题是,你原本以为 AGI 还需要聪明到什么程度?
主持人并不完全同意“o3 就是 AGI”,但他明确站在 Cowen 的阵营里:定义已经不重要了,重要的是这是一次“step-change improvement”。他形容自己把 o3 当成商业思考伙伴时,感受到的是“推理更彻底、更有趣、整体质量明显更好”。
其中一个迅速走红的能力,是 o3 在地理定位(geoguessing)上的表现。只凭一张风景或建筑照片,就能在地图上定位。X 上有人感叹:“10 years ago the CIA would have gotten on their knees for this.” 主持人没有夸张渲染风险,但明确指出:这种能力组合在一起,本质上是一种新的“认知工具”。
他的建议也很简单:哪怕你没有明确任务,也应该试着用 o3 来思考当前的商业问题,感受它与旧模型的差异。即便存在“新玩具光环”,这种差异也很难被忽略。
被忽视的 4.1 与 Codex CLI:OpenAI 的全面反击
在 o3 的光芒下,GPT‑4.1 的发布几乎被忽略。但这同样是一个重要信号。GPT‑4.1 取代 GPT‑4o,提供完整、mini 和 nano 三个版本,其中 nano 被定位为“最快、最便宜”的工作马模型。
更关键的是,一百万 token 的上下文窗口。这与 Gemini 2.5 Pro 看齐,对代码 Agent 意味着可以直接处理整套代码库。OpenAI 明确表示,4.1 是根据开发者反馈优化的,重点放在真实世界的软件工程体验上。
与此同时,Sam Altman 宣布开源 Codex CLI,一个运行在本地的编码 Agent。早期反馈很真实:有人吐槽 token 消耗太快,有人承认它在一次性修 bug 上“极其好用”,但在多文件编辑和文档生成上仍不如 Claude Code。
再加上彭博社曝出的 Windsurf 收购传闻,这一系列动作释放出同一个信号:OpenAI 不打算把“开发者工具”这块阵地拱手让给 Anthropic 或 Cursor。
总结
这一期 AI Daily Brief 的核心价值,不在于某个跑分或参数,而在于多个一线案例共同指向的结论:推理模型正在从“答题机器”转向“思考伙伴”。无论 o3 是否配得上 AGI 这个标签,它已经在工具使用、反幻觉和多模态推理上,跨过了一个清晰的门槛。对普通用户和开发者来说,最重要的不是下定义,而是亲自上手,感受这种质变会如何改变你的工作方式。
关键词: o3, OpenAI, 推理模型, AI Agent, 多模态
事实核查备注: 关键事实包括:OpenAI 发布 o3、o4 Mini、o4 Mini High(2025-04-20);o3 支持图像纳入推理;Greg Brockman 提到 o3 可连续进行约 600 次工具调用;o4 Mini 在 AIMeMe 2025 数学竞赛中在使用 Python 时达到 99.5%;Kelsey Piper 的国际象棋“mate in one”无解测试;Tyler Cowen 评价 o3 接近 AGI;GPT‑4.1 提供最高 100 万 token 上下文;Codex CLI 为开源本地编码 Agent;彭博社报道 OpenAI 可能以约 30 亿美元收购 Windsurf。