o3 到底强在哪？OpenAI 推理模型的一次质变时刻

AI PM 编辑部 · 2025年04月20日 · 11 阅读 · AI/人工智能

Sam Altman Greg Brockman 强化学习幻觉计算机视觉 AI应用上下文窗口 AI工具视觉语言模型代码理解

正在加载视频...

视频章节

OpenAI 发布的 o3 与 o4 Mini 并非又一次例行升级，而是一次“体验层级”的跃迁。从能把图像纳入推理，到在工具使用和反幻觉上出现突破，这期 AI Daily Brief 给出了多个真实案例，解释为什么很多一线用户觉得：这次真的不一样。

o3 到底强在哪？OpenAI 推理模型的一次质变时刻

OpenAI 发布的 o3 与 o4 Mini 并非又一次例行升级，而是一次“体验层级”的跃迁。从能把图像纳入推理，到在工具使用和反幻觉上出现突破，这期 AI Daily Brief 给出了多个真实案例，解释为什么很多一线用户觉得：这次真的不一样。

为什么说 o3 不是“更聪明一点”，而是换了一种推理方式

这一周 AI 圈最重要的新闻，毫无疑问是 OpenAI 一口气发布了 o3、o4 Mini 和 o4 Mini High。主持人一上来就点明态度：这不是一次常规模型迭代。o3 被官方称为“迄今最先进的推理模型”，而 o4 Mini 则是在价格、速度和性能之间寻找平衡的版本。

真正的变化在于“推理模态”的扩展。o3 可以把图像直接纳入推理过程，而不是像过去那样先看、再描述、再思考。OpenAI 在接受 VentureBeat 采访时说得很直白：“These models don't just see an image， they think with it.” 这句话的分量在于，它标志着视觉信息第一次被当成推理链条中的一等公民。

这并非完全从零开始。Google 的 Gemini 系列中，已经出现过类似的多模态推理“涌现能力”。但不同的是，这一次 OpenAI 是明确地、系统性地把它作为推理模型的核心能力来训练和发布。对开发者和 Agent 构建者来说，这意味着模型不只是更会看图，而是能基于视觉和文本混合进行复杂决策。

工具使用的质变：从“会用”到“知道什么时候该用”

如果说多模态推理是能力边界的扩展，那工具使用能力的变化，更像是 Agent 实用性的真正解锁。OpenAI 明确表示，新模型是“通过强化学习训练来使用工具的”，重点不只是如何用，而是何时该用。

Greg Brockman 给了一个非常具体的例子：“We’ve seen o3 use like 600 tool calls in a row trying to solve a really hard task.” 这句话背后的信息量很大。过去很多 Agent 的失败，并不是模型不聪明，而是它不知道什么时候该调用工具，或者在调用时出错。

o3 的变化在于，工具本身被纳入了推理链条的一部分。模型会在“思考过程中”决定是否需要 Python、搜索或其他工具，而不是机械执行预设流程。这也是为什么在基准测试中，o4 Mini 在 AIMeMe 2025 数学竞赛中，只有在接入 Python 解释器时才能达到 99.5% 的成绩。

主持人也提醒，对这些基准数字不必过度迷信。真正重要的是，这种工具意识让 Agent 更接近“自主完成任务”，而不是频繁卡在低级错误上。

一个国际象棋陷阱，暴露了“不会质疑前提”的老问题

最打动人的案例，并非来自官方，而是 Vox《Future Perfect》的作者 Kelsey Piper。她有一个“私人秘密基准”，专门测试模型在复杂推理和幻觉上的表现。

测试题目听起来很简单：给模型一个复杂的国际象棋中盘局面，然后提示“mate in one（一步将死）”。但关键在于——这个局面根本不存在一步将死的解法。大量 AI 在类似问题上会“编造答案”：凭空添加棋子、走非法棋步，然后给出一套看似严密的解释。

Piper 说，她测试过几乎所有主流模型，包括 Claude、Gemini 2.5 Pro、GPT-4.1 Mini High、Grok 3，没有一个能得出“这是不可能的”。而 o4 Mini High 做到了。更夸张的是，它的推理轨迹长达 8 分钟，“That’s a lot of places to potentially make mistakes and hallucinate a solution.”

她总结得非常尖锐：“An AI that can’t question its premises will always be limited.” 当然，这并不意味着模型完美——o4 Mini High 在解释为什么无解时，仍然有棋理错误。但这是第一次，有模型能顶住“题目一定有解”的强烈先验，选择承认不可能。

AGI 争论暂且放下，体验上的“台阶式提升”更重要

经济学家 Tyler Cowen 给出了一个更激进的评价：“I think it’s AGI.” 他随即补了一句更耐人寻味的话：真正的问题是，你原本以为 AGI 还需要聪明到什么程度？

主持人并不完全同意“o3 就是 AGI”，但他明确站在 Cowen 的阵营里：定义已经不重要了，重要的是这是一次“step-change improvement”。他形容自己把 o3 当成商业思考伙伴时，感受到的是“推理更彻底、更有趣、整体质量明显更好”。

其中一个迅速走红的能力，是 o3 在地理定位（geoguessing）上的表现。只凭一张风景或建筑照片，就能在地图上定位。X 上有人感叹：“10 years ago the CIA would have gotten on their knees for this.” 主持人没有夸张渲染风险，但明确指出：这种能力组合在一起，本质上是一种新的“认知工具”。

他的建议也很简单：哪怕你没有明确任务，也应该试着用 o3 来思考当前的商业问题，感受它与旧模型的差异。即便存在“新玩具光环”，这种差异也很难被忽略。

被忽视的 4.1 与 Codex CLI：OpenAI 的全面反击

在 o3 的光芒下，GPT‑4.1 的发布几乎被忽略。但这同样是一个重要信号。GPT‑4.1 取代 GPT‑4o，提供完整、mini 和 nano 三个版本，其中 nano 被定位为“最快、最便宜”的工作马模型。

更关键的是，一百万 token 的上下文窗口。这与 Gemini 2.5 Pro 看齐，对代码 Agent 意味着可以直接处理整套代码库。OpenAI 明确表示，4.1 是根据开发者反馈优化的，重点放在真实世界的软件工程体验上。

与此同时，Sam Altman 宣布开源 Codex CLI，一个运行在本地的编码 Agent。早期反馈很真实：有人吐槽 token 消耗太快，有人承认它在一次性修 bug 上“极其好用”，但在多文件编辑和文档生成上仍不如 Claude Code。

再加上彭博社曝出的 Windsurf 收购传闻，这一系列动作释放出同一个信号：OpenAI 不打算把“开发者工具”这块阵地拱手让给 Anthropic 或 Cursor。

总结

这一期 AI Daily Brief 的核心价值，不在于某个跑分或参数，而在于多个一线案例共同指向的结论：推理模型正在从“答题机器”转向“思考伙伴”。无论 o3 是否配得上 AGI 这个标签，它已经在工具使用、反幻觉和多模态推理上，跨过了一个清晰的门槛。对普通用户和开发者来说，最重要的不是下定义，而是亲自上手，感受这种质变会如何改变你的工作方式。

关键词： o3， OpenAI，推理模型， AI Agent，多模态

事实核查备注：关键事实包括：OpenAI 发布 o3、o4 Mini、o4 Mini High（2025-04-20）；o3 支持图像纳入推理；Greg Brockman 提到 o3 可连续进行约 600 次工具调用；o4 Mini 在 AIMeMe 2025 数学竞赛中在使用 Python 时达到 99.5%；Kelsey Piper 的国际象棋“mate in one”无解测试；Tyler Cowen 评价 o3 接近 AGI；GPT‑4.1 提供最高 100 万 token 上下文；Codex CLI 为开源本地编码 Agent；彭博社报道 OpenAI 可能以约 30 亿美元收购 Windsurf。

返回文章列表