为什么强化学习将定义下一代AI Agent

AI PM 编辑部 · 2025年02月25日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

OpenAI Deep Research 团队在一次深度对谈中，罕见地系统讲清了他们对 AI Agent 未来的判断：不是更多规则拼装，而是端到端强化学习。本文还原 Deep Research 的诞生背景、技术取舍与真实使用场景，解释为什么“你优化什么，就只能得到什么”。

为什么强化学习将定义下一代AI Agent

OpenAI Deep Research 团队在一次深度对谈中，罕见地系统讲清了他们对 AI Agent 未来的判断：不是更多规则拼装，而是端到端强化学习。本文还原 Deep Research 的诞生背景、技术取舍与真实使用场景，解释为什么“你优化什么，就只能得到什么”。

一个反直觉但反复被验证的教训：别试图比模型更聪明

这场对谈最有价值的地方，并不在于 Deep Research 是什么产品，而在于 OpenAI 团队对“如何构建强大 AI Agent”的方法论总结。Issa Fulford 和 Josh Tobin 反复强调，他们在内部一次次看到同样的教训：人类工程师总以为可以通过手写规则、拼装流程，做出比模型本身更聪明的系统，但几乎每次都被模型“打脸”。

其中一句话几乎可以当作机器学习领域的第一性原理：“The number one lesson of machine learning is you get what you optimize for.”——你最终得到的系统，只会忠实反映你优化的目标。如果你只是把几个并非为最终任务优化的模型‘粘’在一起，效果永远不如直接端到端地为结果本身做优化。

正是在这个背景下，他们明确给出了一个长期判断：强化学习（Reinforcement Learning）并不是可选项，而是未来最强 AI Agent 的核心组成部分。只要系统能够直接围绕最终结果进行反馈和训练，模型往往能找到人类想不到、却更优雅的解决方案。这种“让模型自己学会如何完成任务”的思路，正在取代以人为中心的流程设计。

Deep Research 的诞生：从“先思考再回答”的推理范式开始

Deep Research 并不是一个偶然出现的功能。团队回顾，它的起点大约在一年前，当 OpenAI 内部开始看到一种新推理范式的成功：模型在回答之前，会先进行显式或隐式的思考和规划，而不是直接给出答案。这一变化，使得模型在复杂任务上的可靠性明显提升。

在此基础上，Deep Research 被设计成一个真正意义上的 Agent。它不仅能调用搜索，还能在多个网站之间反复浏览、判断下一步该查什么信息，并最终生成一份结构化、来源明确的长报告。与普通 ChatGPT 即时回复不同，Deep Research 通常需要 5 到 30 分钟完成一次任务，换来的则是“相当于人类数小时工作的结果”。

值得注意的是，Deep Research 是 OpenAI 第二个正式发布的 Agent 产品，第一个是 Operator。团队也明确表示，这只是一个开始：“we’ll release many more in future。”这透露出一个清晰信号：OpenAI 正在把 Agent 当作一个长期产品线，而不是单一功能实验。

端到端强化学习：决定 Deep Research 上限的关键选择

在所有技术讨论中，最关键的一点是训练方式。Deep Research 并不是靠大量人工规则来控制“下一步该搜什么”，而是通过端到端强化学习，在“高难度浏览与推理任务”上直接训练模型。这意味着，系统的每一步决策——点开哪个链接、是否继续深挖、何时停止——本质上都由模型自己学会。

Josh Tobin 提到，有些设计决策“非常有立场”，但事实证明，它们往往是决定最终模型质量的最大因素。相比之下，实时访问数据或工具本身，并不是魔法的来源，真正的魔法在于：模型是否被允许、也是否被迫，为最终结果负责。

这也解释了为什么 Deep Research 能在复杂问题上表现稳定。它不是被教会‘如何搜索’，而是被奖励‘搜索到有价值的信息并完成任务’。这种训练方式，正是团队认为可以不断扩展到“更复杂任务”的原因——从研究、分析，到尚未出现的新型工作流。

从写代码到办生日派对：意外但真实的使用方式

在实际使用中，Deep Research 的应用范围明显超出了团队最初的想象。它最初被定位为“知识工作者工具”，但上线仅三周，就被许多科技圈知名人士使用，从行业分析、医学研究，到看似轻松的生日派对策划。

最让团队意外的，是大量用户把它用于编程相关任务。Issa Fulford 坦言，她原本以为这种深度研究更偏向商业或学术场景，但现实是：复杂代码理解、技术方案调研，恰恰非常适合这种“慢而深”的 Agent。

在消费级场景中，购物、旅行规划，以及个性化教育被反复提及。一个细节是，团队分享了个性化教育的案例：Deep Research 在理解用户具体背景后，给出了高度贴合的学习内容，甚至“这次它真的做对了”，让接收者感到被认真对待。这些故事说明，Agent 一旦足够可靠，就会自然渗透进工作与生活的边界。

总结

这次对谈真正的价值，不在于展示了一个新产品，而是揭示了 OpenAI 对 AI Agent 路线的坚定判断：未来不属于规则堆砌，而属于端到端强化学习驱动的系统。Deep Research 只是一个早期例子，但它已经展示了一个方向——当模型被直接优化为“完成任务”，而不是“执行步骤”，许多过去做不到的事情，才刚刚开始成为可能。这对开发者、创业者乃至普通用户来说，都是一次关于未来工作方式的预告。

关键词：强化学习， AI Agent， Deep Research， OpenAI，模型训练

事实核查备注：视频来源：Sequoia AI Ascent；产品名称：Deep Research、Operator；公司：OpenAI；训练方式：端到端强化学习（hard browsing and reasoning tasks）；时间信息：Deep Research 上线约3周；响应时长：5–30分钟；核心原话包括“You get what you optimize for”与“reinforcement learning tuning… will be a critical part”。

返回文章列表