为什么强化学习将定义下一代AI Agent

AI PM 编辑部 · 2025年02月25日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI Deep Research 团队在一次深度对谈中,罕见地系统讲清了他们对 AI Agent 未来的判断:不是更多规则拼装,而是端到端强化学习。本文还原 Deep Research 的诞生背景、技术取舍与真实使用场景,解释为什么“你优化什么,就只能得到什么”。

为什么强化学习将定义下一代AI Agent

OpenAI Deep Research 团队在一次深度对谈中,罕见地系统讲清了他们对 AI Agent 未来的判断:不是更多规则拼装,而是端到端强化学习。本文还原 Deep Research 的诞生背景、技术取舍与真实使用场景,解释为什么“你优化什么,就只能得到什么”。

一个反直觉但反复被验证的教训:别试图比模型更聪明

这场对谈最有价值的地方,并不在于 Deep Research 是什么产品,而在于 OpenAI 团队对“如何构建强大 AI Agent”的方法论总结。Issa Fulford 和 Josh Tobin 反复强调,他们在内部一次次看到同样的教训:人类工程师总以为可以通过手写规则、拼装流程,做出比模型本身更聪明的系统,但几乎每次都被模型“打脸”。

其中一句话几乎可以当作机器学习领域的第一性原理:“The number one lesson of machine learning is you get what you optimize for.”——你最终得到的系统,只会忠实反映你优化的目标。如果你只是把几个并非为最终任务优化的模型‘粘’在一起,效果永远不如直接端到端地为结果本身做优化。

正是在这个背景下,他们明确给出了一个长期判断:强化学习(Reinforcement Learning)并不是可选项,而是未来最强 AI Agent 的核心组成部分。只要系统能够直接围绕最终结果进行反馈和训练,模型往往能找到人类想不到、却更优雅的解决方案。这种“让模型自己学会如何完成任务”的思路,正在取代以人为中心的流程设计。

Deep Research 的诞生:从“先思考再回答”的推理范式开始

Deep Research 并不是一个偶然出现的功能。团队回顾,它的起点大约在一年前,当 OpenAI 内部开始看到一种新推理范式的成功:模型在回答之前,会先进行显式或隐式的思考和规划,而不是直接给出答案。这一变化,使得模型在复杂任务上的可靠性明显提升。

在此基础上,Deep Research 被设计成一个真正意义上的 Agent。它不仅能调用搜索,还能在多个网站之间反复浏览、判断下一步该查什么信息,并最终生成一份结构化、来源明确的长报告。与普通 ChatGPT 即时回复不同,Deep Research 通常需要 5 到 30 分钟完成一次任务,换来的则是“相当于人类数小时工作的结果”。

值得注意的是,Deep Research 是 OpenAI 第二个正式发布的 Agent 产品,第一个是 Operator。团队也明确表示,这只是一个开始:“we’ll release many more in future。”这透露出一个清晰信号:OpenAI 正在把 Agent 当作一个长期产品线,而不是单一功能实验。

端到端强化学习:决定 Deep Research 上限的关键选择

在所有技术讨论中,最关键的一点是训练方式。Deep Research 并不是靠大量人工规则来控制“下一步该搜什么”,而是通过端到端强化学习,在“高难度浏览与推理任务”上直接训练模型。这意味着,系统的每一步决策——点开哪个链接、是否继续深挖、何时停止——本质上都由模型自己学会。

Josh Tobin 提到,有些设计决策“非常有立场”,但事实证明,它们往往是决定最终模型质量的最大因素。相比之下,实时访问数据或工具本身,并不是魔法的来源,真正的魔法在于:模型是否被允许、也是否被迫,为最终结果负责。

这也解释了为什么 Deep Research 能在复杂问题上表现稳定。它不是被教会‘如何搜索’,而是被奖励‘搜索到有价值的信息并完成任务’。这种训练方式,正是团队认为可以不断扩展到“更复杂任务”的原因——从研究、分析,到尚未出现的新型工作流。

从写代码到办生日派对:意外但真实的使用方式

在实际使用中,Deep Research 的应用范围明显超出了团队最初的想象。它最初被定位为“知识工作者工具”,但上线仅三周,就被许多科技圈知名人士使用,从行业分析、医学研究,到看似轻松的生日派对策划。

最让团队意外的,是大量用户把它用于编程相关任务。Issa Fulford 坦言,她原本以为这种深度研究更偏向商业或学术场景,但现实是:复杂代码理解、技术方案调研,恰恰非常适合这种“慢而深”的 Agent。

在消费级场景中,购物、旅行规划,以及个性化教育被反复提及。一个细节是,团队分享了个性化教育的案例:Deep Research 在理解用户具体背景后,给出了高度贴合的学习内容,甚至“这次它真的做对了”,让接收者感到被认真对待。这些故事说明,Agent 一旦足够可靠,就会自然渗透进工作与生活的边界。

总结

这次对谈真正的价值,不在于展示了一个新产品,而是揭示了 OpenAI 对 AI Agent 路线的坚定判断:未来不属于规则堆砌,而属于端到端强化学习驱动的系统。Deep Research 只是一个早期例子,但它已经展示了一个方向——当模型被直接优化为“完成任务”,而不是“执行步骤”,许多过去做不到的事情,才刚刚开始成为可能。这对开发者、创业者乃至普通用户来说,都是一次关于未来工作方式的预告。


关键词: 强化学习, AI Agent, Deep Research, OpenAI, 模型训练

事实核查备注: 视频来源:Sequoia AI Ascent;产品名称:Deep Research、Operator;公司:OpenAI;训练方式:端到端强化学习(hard browsing and reasoning tasks);时间信息:Deep Research 上线约3周;响应时长:5–30分钟;核心原话包括“You get what you optimize for”与“reinforcement learning tuning… will be a critical part”。