OpenAI Deep Research:一个AI如何学会像研究员一样上网

AI PM 编辑部 · 2025年05月08日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

Isa Fulford首次系统讲述了OpenAI Deep Research的诞生过程:从一个“临时拼出来”的Demo,到基于强化学习和工具训练的研究型AI Agent。它揭示了OpenAI如何把推理模型真正带入现实世界任务。

OpenAI Deep Research:一个AI如何学会像研究员一样上网

Isa Fulford首次系统讲述了OpenAI Deep Research的诞生过程:从一个“临时拼出来”的Demo,到基于强化学习和工具训练的研究型AI Agent。它揭示了OpenAI如何把推理模型真正带入现实世界任务。

为什么OpenAI要做一个“会查资料”的模型

Deep Research并不是一开始就规划好的宏大产品,它的起点来自一个很现实的疑问:推理模型在数学、代码上进步飞快,但如果直接训练它们去完成人类每天都在做的事情,会发生什么?

Isa Fulford在分享中回顾,大约一年前,OpenAI内部在强化学习和推理模型上取得了明显进展,但训练任务主要集中在数学、科学和编程。“我们看到了从这些任务到其他领域的泛化,但仍然好奇,如果直接训练日常任务会怎样。”这是Deep Research最核心的动机。

团队最终选择了“在线浏览”作为切入口,并不是因为它简单,恰恰相反,而是因为它覆盖了极其广泛的真实需求:学术研究、投资分析、咨询报告,甚至是普通人的购物和旅行决策。同时,它又是一个相对安全的起点——只读式的浏览代理,让安全边界更清晰。Isa用一种工程师特有的冷静总结道:这是一个“很好的sandbox”。

这个判断本身就是一个重要洞见:真正通用的AI能力,不是从更抽象的基准里长出来的,而是要敢于直接面对人类真实而复杂的工作流。

从“先骗到人”开始:Deep Research的原型故事

Deep Research并非一开始就靠模型能力取胜,相反,它是从一个非常“草根”的原型起步的。

Isa坦率地说:“我们当时只是通过prompt把一个Demo拼了出来。”她与Yash Patil、Thomas Simpson一起,没有训练任何新模型,只是用现有模型模拟出一个“如果AI真的会做深度研究,会是什么样子”的产品形态。这个Demo的目的只有一个:让人兴奋。

结果它真的奏效了。内部开始相信,这不是一个遥远的研究设想,而是一个值得投入工程和训练资源的产品方向。随后,真正困难的部分才开始:如何训练一个模型,能长期、稳定地执行多步研究任务。

他们为此设计了专门的强化学习任务,让模型学会使用工具——浏览器、搜索、点击、滚动网页,以及执行代码做数据分析和画图。这一点非常关键:Deep Research并不是“更聪明地回答问题”,而是“学会如何工作”。模型不再只是语言生成器,而是一个会规划、执行、校验的研究型Agent。

一次研究要5到30分钟:它到底在做什么

与普通搜索或快速问答不同,Deep Research被明确设计为“慢而深”的能力。Isa给出了一个清晰的定义:用户给出一个问题后,它会花5到30分钟,浏览大量在线来源,进行推理和整合,最终输出一份“接近研究分析师水平”的、带完整引用的报告。

在现场演示中,她展示了一个典型流程:用户提交关于AI投资趋势的复杂问题后,Deep Research首先会提出澄清问题,然后启动研究任务。用户可以看到一个被总结过的“思考过程”,包括它的计划和采取的行动。

Isa特别强调了它与o3模型的关系。“如果你需要的是中等深度的搜索,用o3就很好。”而Deep Research,则是搜索复杂度的“最远端”。一个容易被忽略的细节是:o3之所以擅长搜索,正是因为它复用了Deep Research阶段开发的工具和浏览数据集。

这意味着,Deep Research不仅是一个独立产品,也在反向塑造OpenAI整体推理模型的能力边界。

从VC报告到韩国夜市:真实使用案例

如果说技术架构说明了“能不能做”,那真实案例则回答了“值不值得做”。

Isa分享了一个非常生活化的故事:她在韩国旅行时,用手机让Deep Research寻找15分钟内可达的夜市,要求同时参考Reddit和她看不懂的韩文资料,并在每个夜市中筛选评分最高的摊位。她直言:“用普通搜索,几乎不可能一次性完成这么多约束。”而Deep Research可以对每个候选项深入检查,最后返回一份带引用的长报告。

除此之外,还有更典型的专业用例:为红杉的分享准备AI投资趋势报告、绘制投资曲线;或在生物医药领域,查询哪些基因疗法已经获得美国监管批准。

但她并没有回避问题。Isa明确承认:“它显然还不完美,有时会产生幻觉。”因此团队正在持续提升可靠性,并思考下一步——让Deep Research不仅能综合信息,还能真正“采取行动”。这句话为未来埋下了一个清晰的伏笔。

总结

Deep Research的故事并不只是一个新功能的发布记录,它展示了OpenAI在方法论上的一次重要转向:从抽象能力评测,走向真实工作流训练。从一个prompt拼出来的Demo,到基于强化学习和工具使用的研究型Agent,这条路径揭示了AI如何逐步接近“可用的智能”。对普通用户而言,它意味着复杂信息不再是门槛;对从业者而言,它则提示了一个方向:真正有价值的AI产品,往往诞生于真实而具体的需求之中。


关键词: Deep Research, OpenAI, AI Agent, 强化学习, AI搜索

事实核查备注: 人物:Isa Fulford(OpenAI Deep Research研究团队负责人);产品:Deep Research,ChatGPT,o3模型;技术:强化学习、多步推理、工具使用(浏览器、代码执行);时间:单次研究5–30分钟;公司:OpenAI,Sequoia(红杉资本);已提及问题:幻觉、可靠性