正在加载视频...
视频章节
在这期 No Priors 播客中,OpenAI 研究员 Eric Mitchell 与 Brandon McKinzie 罕见地系统讲述了 O3 推理模型的设计动机与未来方向。与其把 O3 看成一次简单的模型升级,不如把它理解为:大模型正在从“生成答案”,走向“理解任务、选择工具、完成复杂目标”的关键转折。
OpenAI O3模型背后:从“会回答”到“会思考”的一次跃迁
在这期 No Priors 播客中,OpenAI 研究员 Eric Mitchell 与 Brandon McKinzie 罕见地系统讲述了 O3 推理模型的设计动机与未来方向。与其把 O3 看成一次简单的模型升级,不如把它理解为:大模型正在从“生成答案”,走向“理解任务、选择工具、完成复杂目标”的关键转折。
为什么 O3 不是“更大的 GPT”,而是另一条路线
理解 O3 的价值,首先要放弃一个常见误解:它并不是单纯通过堆参数变强。Eric Mitchell 在对话中反复强调,O3 属于一类“reasoning model”,核心目标不是更快给出答案,而是“thinking more deeply about something really matters”。
与传统 GPT 模型主要依赖一次性生成不同,O3 被设计为可以在多步骤任务中停下来思考,判断下一步该做什么,甚至决定是否调用工具。这种能力在复杂任务中尤为关键,比如跨文档研究、长链路推理,或需要外部信息补充的决策问题。Brandon McKinzie 提到,这类模型的突破点不在于单项能力,而在于“能否在复杂任务中持续保持正确方向”。
一个重要的转折是,团队开始把“推理本身”当作可优化对象,而不仅是输入输出之间的映射关系。这意味着模型训练和评估的重点,正在从“答对率”转向“过程是否合理”。
从“一个模型包打天下”到能力分化
播客中一个耐人寻味的讨论,是关于模型是否会出现“分化”。主持人提出,未来是否会存在一类模型专门负责快速、便宜的日常任务,另一类则专注于深度推理。Eric 对此并不回避,他认为这种 bifurcation 几乎是必然的。
原因很现实:深度推理是昂贵的。O3 这类模型在推理时消耗更多计算资源,也需要更复杂的训练信号。因此,它并不适合所有场景。Brandon 用一种工程视角解释说,把所有用户都强行推到“最强模式”,反而会让体验变差,“make things easier for the user is a very good goal”。
这背后反映的是 OpenAI 内部对产品化的清醒认识:不是模型越聪明越好,而是要在合适的任务上使用合适的推理深度。这种能力分层,可能会成为未来大模型产品设计的基本原则。
一个真实用例:用 O3 做“深度研究”
在所有讨论中,最具体的案例来自 Brandon 的个人使用经验。他提到,自己频繁用 O3 来做 deep research——不是简单搜索,而是长时间、多来源、带判断的研究任务。
这种任务的难点不在于信息获取,而在于组织与筛选。O3 的优势在于,它可以在过程中不断调整策略:先浏览资料,再总结假设,发现缺口后再回到外部信息源。Brandon 形容这更像一个“初级研究员”,而不是搜索引擎。
值得注意的是,他们并没有把这种能力包装成炫技式 demo,而是强调实用性:模型是否真的能减少人的认知负担。正如对话中所说,这类能力最终要“tailor things to who you think is going to be using it”,否则再强的推理也只是实验室成果。
当模型开始“采取行动”,风险与边界在哪里
随着模型具备工具使用和行动规划能力,风险问题不可避免地浮出水面。在后半段对话中,Eric 提到一个极端例子:如果模型误用工具,理论上可能造成严重后果,比如“delete your hard drive or something”。
这并不是危言耸听,而是解释为什么 O 系列模型的训练中,监督信号和安全约束同样重要。他们更关心的是,如何让模型理解哪些行动是不可逆、不可接受的。
一个有意思的观点是,把现实世界行动看作另一种“环境反馈”。模型是否能从失败或被拒绝的行动中学习,将直接影响它未来是否能安全地承担更复杂的角色。这也是 O3 之后演进路线中,无法回避的一道关卡。
总结
这期对话的价值,并不在于公布了多少技术细节,而在于清晰展示了 OpenAI 内部如何重新定义“大模型进步”。O3 代表的不是更流畅的文本,而是一种可持续的推理方式:知道何时思考、何时行动、何时停下。对使用者而言,真正的启发是——未来的 AI 不只是工具,而更像协作者,而我们需要学会如何与不同“思考深度”的模型共处。
关键词: OpenAI, O3模型, 推理模型, 大语言模型, 工具使用
事实核查备注: 视频嘉宾:Eric Mitchell、Brandon McKinzie;节目:No Priors Ep.113;模型名称:OpenAI O3(推理模型);关键概念:reasoning model、tool use、bifurcation、deep research;引用原话包括“thinking more deeply about something really matters”“make things easier for the user is a very good goal”“delete your hard drive or something”。