从强化学习到Deep Research:OpenAI如何重新定义AI浏览与研究
正在加载视频...
视频章节
这期No Priors播客首次系统讲述了OpenAI Deep Research的起源与设计取舍:为什么不把Agent做成“点按钮的机器人”,而是优先解决信息综合?以及强化学习如何在真实产品中学会规划、搜索与自我约束。
从强化学习到Deep Research:OpenAI如何重新定义AI浏览与研究
这期No Priors播客首次系统讲述了OpenAI Deep Research的起源与设计取舍:为什么不把Agent做成“点按钮的机器人”,而是优先解决信息综合?以及强化学习如何在真实产品中学会规划、搜索与自我约束。
起点不是Agent,而是“普通用户每天在做什么”
这一切的起点,并不是要做一个炫技的AI Agent,而是一次相对克制的判断:强化学习(Reinforcement Learning)是否能真正改善普通用户每天都会遇到的任务?Isa Fulford 回忆,大约一年前,团队在内部对一种新的强化学习算法进展“非常兴奋”,但很快意识到,如果只停留在实验环境里,它的价值是有限的。于是问题被重新定义为:能否把同样的算法,用在更贴近真实世界的浏览和研究任务上。
这个转向很关键。与许多Agent项目追求“自动执行操作”不同,Deep Research一开始就刻意避开了高风险的行动空间,选择把重心放在“从大量来源中综合信息”上。Fulford 说,他们关注的不是“采取正确动作”,而是“把信息整合得足够好”。这不仅更符合公司整体目标,也让安全问题的边界更清晰。
在今天看来,这个选择几乎预示了Deep Research的形态:它更像一位耐心、系统的研究助理,而不是一个会到处点网页、下单、发邮件的自动化机器人。这种产品直觉,来自对强化学习能力边界的清醒认识,而不是技术自信本身。
没有模型训练的Demo,反而说服了所有人
一个颇具戏剧性的细节是:最早用于“推销”这个想法的Demo,完全没有模型训练。Fulford 提到,那只是一个概念验证,用来展示如果AI真的能系统性地浏览、整理和引用信息,体验会有多不一样。正是这个Demo,让团队内部意识到:这不是一个遥远的研究问题,而是一个可以落地的产品方向。
真正的难题随后才开始:数据从哪里来?如何训练?工具怎么做?他们需要从零设计新的数据集,引入人工标注者(human trainers),并逐步搭建浏览工具、Python工具等基础设施。重要的是,这一切是在“没有上线压力”的状态下完成的,持续了数月反复迭代。
一个被反复提及的内部测试任务是:找出 Liam Felis 和 Barrett Zoph 共同发表过的所有论文。这个问题看似简单,实际上考验的是跨来源搜索、去重、归纳与引用的能力。当内部员工开始自发使用这个系统,甚至 Sam Altman 用它来“买了一堆东西”时,团队意识到他们已经跨过了一个关键门槛——这个系统真的有用。
强化学习教会了模型“如何计划”,而不仅是回答
在技术层面,Deep Research最有意思的发现之一,是强化学习在没有显式过程监督的情况下,学会了类似人类的规划行为。Fulford 形容,一些行为是“非常令人惊讶的”:模型会先规划搜索路径,决定哪些信息值得先看,如何在约束条件下调整策略。
这背后依赖的是人类专家的参与。团队并不是随便找标注者,而是需要具备真实浏览和研究经验的人,来定义什么是“好结果”。强化学习的优势在于,它不要求人类一步步教模型怎么做,而是通过结果反馈,让模型自己找到更优策略。
但这种能力也带来了新的风险。幻觉(hallucination)被明确点名为关键失败模式之一,因此Deep Research对引用(citations)极为重视。Fulford 强调,未来当Agent开始采取真实行动时,信任必须通过护栏、确认机制和逐步建立的用户信心来获得,而不是一次性放权。
什么时候该用Deep Research,而不是普通模型?
一个对用户非常实用的判断标准,是Fulford给出的“心智模型”:当你的问题是明确的、需要最新信息、并且期望一个全面输出时,Deep Research通常优于基础模型。时尚选购、复杂购物、旅行规划,都是典型例子——这些任务往往包含大量约束条件,很难一次性回答。
代价也很清楚:速度。Deep Research并不追求即时响应,有时模型需要“决定自己要思考多久”。这是一次有意识的取舍,也是一次失败与成功并存的实验。Fulford 提到,他们正在探索介于“快速搜索”和“深度研究”之间的中间形态。
展望未来,她提到更统一的Agent体验、更高层次的人类任务抽象、以及在安全前提下访问私有数据的可能性。长期来看,长时任务、Agent记忆和人类协作,被视为能力复利的关键。情感上,她把构建Deep Research形容为“一次非常有情绪张力的体验”,因为真正的瓶颈从来不只是模型,而是数据、工具、上下文与安全。
总结
Deep Research的故事提醒我们,最重要的创新往往不是“能不能做Agent”,而是“先解决哪一类问题”。通过把强化学习落地到信息综合这一核心任务,OpenAI不仅获得了一个实用产品,也探索了一条更稳健的Agent进化路径。对创业者和从业者而言,这是一堂关于取舍、节奏与真实用户价值的公开课。
关键词: Deep Research, 强化学习, AI Agent, AI安全, 检索增强生成
事实核查备注: 人物:Isa Fulford;公司:OpenAI;播客:No Priors Ep.112;技术概念:强化学习(Reinforcement Learning)、AI Agent、幻觉(hallucination)、人类反馈/人类训练者、浏览工具、Python工具;案例:查找Liam Felis与Barrett Zoph共同论文;内部使用与Sam Altman的反馈。