从强化学习到Deep Research：OpenAI如何重新定义AI浏览与研究

AI PM 编辑部 · 2025年04月24日 · 11 阅读 · AI/人工智能

强化学习微调 AI安全幻觉模型训练大语言模型代码理解通用人工智能 AI应用 AI Agent

正在加载视频...

视频章节

这期No Priors播客首次系统讲述了OpenAI Deep Research的起源与设计取舍：为什么不把Agent做成“点按钮的机器人”，而是优先解决信息综合？以及强化学习如何在真实产品中学会规划、搜索与自我约束。

从强化学习到Deep Research：OpenAI如何重新定义AI浏览与研究

这期No Priors播客首次系统讲述了OpenAI Deep Research的起源与设计取舍：为什么不把Agent做成“点按钮的机器人”，而是优先解决信息综合？以及强化学习如何在真实产品中学会规划、搜索与自我约束。

起点不是Agent，而是“普通用户每天在做什么”

这一切的起点，并不是要做一个炫技的AI Agent，而是一次相对克制的判断：强化学习（Reinforcement Learning）是否能真正改善普通用户每天都会遇到的任务？Isa Fulford 回忆，大约一年前，团队在内部对一种新的强化学习算法进展“非常兴奋”，但很快意识到，如果只停留在实验环境里，它的价值是有限的。于是问题被重新定义为：能否把同样的算法，用在更贴近真实世界的浏览和研究任务上。

这个转向很关键。与许多Agent项目追求“自动执行操作”不同，Deep Research一开始就刻意避开了高风险的行动空间，选择把重心放在“从大量来源中综合信息”上。Fulford 说，他们关注的不是“采取正确动作”，而是“把信息整合得足够好”。这不仅更符合公司整体目标，也让安全问题的边界更清晰。

在今天看来，这个选择几乎预示了Deep Research的形态：它更像一位耐心、系统的研究助理，而不是一个会到处点网页、下单、发邮件的自动化机器人。这种产品直觉，来自对强化学习能力边界的清醒认识，而不是技术自信本身。

没有模型训练的Demo，反而说服了所有人

一个颇具戏剧性的细节是：最早用于“推销”这个想法的Demo，完全没有模型训练。Fulford 提到，那只是一个概念验证，用来展示如果AI真的能系统性地浏览、整理和引用信息，体验会有多不一样。正是这个Demo，让团队内部意识到：这不是一个遥远的研究问题，而是一个可以落地的产品方向。

真正的难题随后才开始：数据从哪里来？如何训练？工具怎么做？他们需要从零设计新的数据集，引入人工标注者（human trainers），并逐步搭建浏览工具、Python工具等基础设施。重要的是，这一切是在“没有上线压力”的状态下完成的，持续了数月反复迭代。

一个被反复提及的内部测试任务是：找出 Liam Felis 和 Barrett Zoph 共同发表过的所有论文。这个问题看似简单，实际上考验的是跨来源搜索、去重、归纳与引用的能力。当内部员工开始自发使用这个系统，甚至 Sam Altman 用它来“买了一堆东西”时，团队意识到他们已经跨过了一个关键门槛——这个系统真的有用。

强化学习教会了模型“如何计划”，而不仅是回答

在技术层面，Deep Research最有意思的发现之一，是强化学习在没有显式过程监督的情况下，学会了类似人类的规划行为。Fulford 形容，一些行为是“非常令人惊讶的”：模型会先规划搜索路径，决定哪些信息值得先看，如何在约束条件下调整策略。

这背后依赖的是人类专家的参与。团队并不是随便找标注者，而是需要具备真实浏览和研究经验的人，来定义什么是“好结果”。强化学习的优势在于，它不要求人类一步步教模型怎么做，而是通过结果反馈，让模型自己找到更优策略。

但这种能力也带来了新的风险。幻觉（hallucination）被明确点名为关键失败模式之一，因此Deep Research对引用（citations）极为重视。Fulford 强调，未来当Agent开始采取真实行动时，信任必须通过护栏、确认机制和逐步建立的用户信心来获得，而不是一次性放权。

什么时候该用Deep Research，而不是普通模型？

一个对用户非常实用的判断标准，是Fulford给出的“心智模型”：当你的问题是明确的、需要最新信息、并且期望一个全面输出时，Deep Research通常优于基础模型。时尚选购、复杂购物、旅行规划，都是典型例子——这些任务往往包含大量约束条件，很难一次性回答。

代价也很清楚：速度。Deep Research并不追求即时响应，有时模型需要“决定自己要思考多久”。这是一次有意识的取舍，也是一次失败与成功并存的实验。Fulford 提到，他们正在探索介于“快速搜索”和“深度研究”之间的中间形态。

展望未来，她提到更统一的Agent体验、更高层次的人类任务抽象、以及在安全前提下访问私有数据的可能性。长期来看，长时任务、Agent记忆和人类协作，被视为能力复利的关键。情感上，她把构建Deep Research形容为“一次非常有情绪张力的体验”，因为真正的瓶颈从来不只是模型，而是数据、工具、上下文与安全。

总结

Deep Research的故事提醒我们，最重要的创新往往不是“能不能做Agent”，而是“先解决哪一类问题”。通过把强化学习落地到信息综合这一核心任务，OpenAI不仅获得了一个实用产品，也探索了一条更稳健的Agent进化路径。对创业者和从业者而言，这是一堂关于取舍、节奏与真实用户价值的公开课。

关键词： Deep Research，强化学习， AI Agent， AI安全，检索增强生成

事实核查备注：人物：Isa Fulford；公司：OpenAI；播客：No Priors Ep.112；技术概念：强化学习（Reinforcement Learning）、AI Agent、幻觉（hallucination）、人类反馈/人类训练者、浏览工具、Python工具；案例：查找Liam Felis与Barrett Zoph共同论文；内部使用与Sam Altman的反馈。

返回文章列表