OpenAI Deep Research：一个AI如何学会像研究员一样上网

AI PM 编辑部 · 2025年05月08日 · 4 阅读 · AI/人工智能

微调强化学习 AI安全幻觉模型训练推理提示工程 AI应用 AI Agent AI搜索

正在加载视频...

视频章节

Isa Fulford首次系统讲述了OpenAI Deep Research的诞生过程：从一个“临时拼出来”的Demo，到基于强化学习和工具训练的研究型AI Agent。它揭示了OpenAI如何把推理模型真正带入现实世界任务。

OpenAI Deep Research：一个AI如何学会像研究员一样上网

Isa Fulford首次系统讲述了OpenAI Deep Research的诞生过程：从一个“临时拼出来”的Demo，到基于强化学习和工具训练的研究型AI Agent。它揭示了OpenAI如何把推理模型真正带入现实世界任务。

为什么OpenAI要做一个“会查资料”的模型

Deep Research并不是一开始就规划好的宏大产品，它的起点来自一个很现实的疑问：推理模型在数学、代码上进步飞快，但如果直接训练它们去完成人类每天都在做的事情，会发生什么？

Isa Fulford在分享中回顾，大约一年前，OpenAI内部在强化学习和推理模型上取得了明显进展，但训练任务主要集中在数学、科学和编程。“我们看到了从这些任务到其他领域的泛化，但仍然好奇，如果直接训练日常任务会怎样。”这是Deep Research最核心的动机。

团队最终选择了“在线浏览”作为切入口，并不是因为它简单，恰恰相反，而是因为它覆盖了极其广泛的真实需求：学术研究、投资分析、咨询报告，甚至是普通人的购物和旅行决策。同时，它又是一个相对安全的起点——只读式的浏览代理，让安全边界更清晰。Isa用一种工程师特有的冷静总结道：这是一个“很好的sandbox”。

这个判断本身就是一个重要洞见：真正通用的AI能力，不是从更抽象的基准里长出来的，而是要敢于直接面对人类真实而复杂的工作流。

从“先骗到人”开始：Deep Research的原型故事

Deep Research并非一开始就靠模型能力取胜，相反，它是从一个非常“草根”的原型起步的。

Isa坦率地说：“我们当时只是通过prompt把一个Demo拼了出来。”她与Yash Patil、Thomas Simpson一起，没有训练任何新模型，只是用现有模型模拟出一个“如果AI真的会做深度研究，会是什么样子”的产品形态。这个Demo的目的只有一个：让人兴奋。

结果它真的奏效了。内部开始相信，这不是一个遥远的研究设想，而是一个值得投入工程和训练资源的产品方向。随后，真正困难的部分才开始：如何训练一个模型，能长期、稳定地执行多步研究任务。

他们为此设计了专门的强化学习任务，让模型学会使用工具——浏览器、搜索、点击、滚动网页，以及执行代码做数据分析和画图。这一点非常关键：Deep Research并不是“更聪明地回答问题”，而是“学会如何工作”。模型不再只是语言生成器，而是一个会规划、执行、校验的研究型Agent。

一次研究要5到30分钟：它到底在做什么

与普通搜索或快速问答不同，Deep Research被明确设计为“慢而深”的能力。Isa给出了一个清晰的定义：用户给出一个问题后，它会花5到30分钟，浏览大量在线来源，进行推理和整合，最终输出一份“接近研究分析师水平”的、带完整引用的报告。

在现场演示中，她展示了一个典型流程：用户提交关于AI投资趋势的复杂问题后，Deep Research首先会提出澄清问题，然后启动研究任务。用户可以看到一个被总结过的“思考过程”，包括它的计划和采取的行动。

Isa特别强调了它与o3模型的关系。“如果你需要的是中等深度的搜索，用o3就很好。”而Deep Research，则是搜索复杂度的“最远端”。一个容易被忽略的细节是：o3之所以擅长搜索，正是因为它复用了Deep Research阶段开发的工具和浏览数据集。

这意味着，Deep Research不仅是一个独立产品，也在反向塑造OpenAI整体推理模型的能力边界。

从VC报告到韩国夜市：真实使用案例

如果说技术架构说明了“能不能做”，那真实案例则回答了“值不值得做”。

Isa分享了一个非常生活化的故事：她在韩国旅行时，用手机让Deep Research寻找15分钟内可达的夜市，要求同时参考Reddit和她看不懂的韩文资料，并在每个夜市中筛选评分最高的摊位。她直言：“用普通搜索，几乎不可能一次性完成这么多约束。”而Deep Research可以对每个候选项深入检查，最后返回一份带引用的长报告。

除此之外，还有更典型的专业用例：为红杉的分享准备AI投资趋势报告、绘制投资曲线；或在生物医药领域，查询哪些基因疗法已经获得美国监管批准。

但她并没有回避问题。Isa明确承认：“它显然还不完美，有时会产生幻觉。”因此团队正在持续提升可靠性，并思考下一步——让Deep Research不仅能综合信息，还能真正“采取行动”。这句话为未来埋下了一个清晰的伏笔。

总结

Deep Research的故事并不只是一个新功能的发布记录，它展示了OpenAI在方法论上的一次重要转向：从抽象能力评测，走向真实工作流训练。从一个prompt拼出来的Demo，到基于强化学习和工具使用的研究型Agent，这条路径揭示了AI如何逐步接近“可用的智能”。对普通用户而言，它意味着复杂信息不再是门槛；对从业者而言，它则提示了一个方向：真正有价值的AI产品，往往诞生于真实而具体的需求之中。

关键词： Deep Research， OpenAI， AI Agent，强化学习， AI搜索

事实核查备注：人物：Isa Fulford（OpenAI Deep Research研究团队负责人）；产品：Deep Research，ChatGPT，o3模型；技术：强化学习、多步推理、工具使用（浏览器、代码执行）；时间：单次研究5–30分钟；公司：OpenAI，Sequoia（红杉资本）；已提及问题：幻觉、可靠性

返回文章列表