一次真实测评:让ChatGPT Agent自己做一门“智能体管理”课程,结果如何?

AI PM 编辑部 · 2025年07月20日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

这期视频中,The AI Daily Brief 主播用一个非常具体、也极具现实意义的任务测试了刚发布不久的 ChatGPT Agent:让它从零创建一门“AI Agent 管理”完整课程。结果既不完美,也极具启发性,清楚展示了通用智能体正在逼近的能力边界。

一次真实测评:让ChatGPT Agent自己做一门“智能体管理”课程,结果如何?

这期视频中,The AI Daily Brief 主播用一个非常具体、也极具现实意义的任务测试了刚发布不久的 ChatGPT Agent:让它从零创建一门“AI Agent 管理”完整课程。结果既不完美,也极具启发性,清楚展示了通用智能体正在逼近的能力边界。

为什么要用“做一门课”来测试ChatGPT Agent?

这次评测的出发点,本身就带着强烈的个人情绪和行业判断。演讲者直言,自己“现在对很多还停留在2023年AI技能框架里的学习平台非常不满”。在他看来,行业真正的转折点已经从“如何更好地使用助手型AI”,转向“如何设计、编排和管理成体系的AI Agent”。

正是在这个背景下,他选择了一个极具综合性的测试任务:让 ChatGPT Agent 独立创建一门关于“AI Agent 管理”的完整自学课程。这不是一篇博客,也不是营销用的入门内容,而是一个“端到端、可以真正学完的课程”。他在提示中明确要求:要有课程大纲、模块拆分、学习活动和可执行的待办事项,而且不是为了引流更大课程的“试吃版”。

这个任务之所以重要,是因为它天然结合了研究、结构化写作、工具使用和产出物生成,正好命中 ChatGPT Agent 宣称的核心能力组合——深度研究 + 电脑操作 + 终端与内容生成。用演讲者的话说,这是一个“deep research plus a production task”的典型用例。

ChatGPT Agent是如何“像同事一样”完成这项工作的?

在演示过程中,一个非常具体、也很容易被忽略的细节是:ChatGPT Agent 并不是一次性给出结果,而是通过一个“虚拟电脑”逐步完成任务。它会先搜索资料、再整理结构、再细化内容,而这些过程对用户是可见、可打断、可修正的。

演讲者提到,第一次搜索大约花了4分钟,随后又用了几分钟进行内容精炼;当他要求把材料转成演示文稿时,时间更长一些。但关键不在速度,而在交互方式。他特别强调:“就像你把任务交给一个同事一样,你可以在它还没做完的时候继续给反馈,调整方向。”

为了更自然地表达需求,他甚至没有打字,而是使用了语音输入(dictate),一边“碎碎念”自己的背景和期待,一边把任务交代清楚。这种非结构化输入,反而很好地测试了模型对意图的理解能力,也暴露出一个重要事实:Agent 对用户给出的例子和框架有非常强的依附性,后续结果会明显沿着这些轨道展开。

第一版课程长什么样?亮点与明显短板

四分钟后,ChatGPT Agent 给出了一门名为“Getting Good at Agent Management”的课程初稿,整体结构相当完整:一个总览,加上七个模块。

前几个模块的质量令人意外地扎实。模块一是 AI Agent 基础,涵盖“什么是AI Agent”“什么时候应该构建Agent”“Agent的组成”“Agent类型”和“主流框架概览”,每一部分都配有关键要点、学习资源和活动。模块二聚焦最新的提示工程(prompt engineering),模块三则是更深入的上下文工程(context engineering),不仅讲背景和方法,还设计了动手任务,比如构建上下文存储、测试不同上下文长度的影响。

演讲者明确肯定了这一点,认为这些活动“是开始真正理解上下文工程的好方式”。但问题也很快出现。从模块五开始,内容逐渐失焦:关于 MCP 生态里的 vibe coding,更像资料汇编;模块六讲多智能体编排,模块七讲安全护栏与评估,模块八是毕业项目和灵感启发。想法不差,但“课程感”在减弱,活动开始变得泛化。

他的评价很直接:这是一个“okay but not something I would push”的版本。

关键转折:补上“真正的动手经验”之后发生了什么

真正的转折点,来自演讲者对“缺失部分”的一次精准点名:实践深度不够。他随后要求 ChatGPT Agent 创建一个更系统的“Agent 管理活动库”,涵盖初级、中级和高级工作流,明确点名 NADN、Lindy,以及使用 Manus 或 ChatGPT Agent 本身来完成任务。

结果很有意思。模型几乎完全沿用了他给出的示例结构,生成了一个新的模块九,专门用于 hands-on agent management。这一方面说明 Agent 的可塑性很强,另一方面也暴露了它的局限:它非常依赖用户给出的范式,而不是主动重构更优解。

接下来,他又让 Agent 生成配套的活动型工作手册或演示文稿。最终产出是一个大约20页的 PowerPoint,步骤清晰、资源齐全,但只覆盖了活动库,没有整合其他模块的实践内容。即便在多轮修改后,他仍然给了一个“慷慨的 C 等级”评价:“它能让你比大多数人强,但确实有点杂乱、不够精致。”

即便如此,他反复强调:几分钟内完成这些工作的效率,本身就是一个无法忽视的信号。

和Manus正面对比后的真正启示

为了让判断更公平,演讲者做了最后一个测试:把完全相同的提示词,原封不动地丢给 Manus。结果是,Manus 的整体表现明显更好,大约在 B- 到 B 之间。

它的优势不在单点能力,而在“做事方式”。Manus 会更清楚地展示进度、分步骤推进结构,课程大纲更紧凑;在扩展活动和生成工作手册时,逻辑也更连贯,甚至主动提出可以把成果直接做成一个网站。

但结论并不是“ChatGPT Agent输了”。恰恰相反,演讲者给出了一个更有现实意义的判断:“Manus 现在更 polished,但 ChatGPT Agent 会触达更多人。”随着 ChatGPT 的分发优势,很多人即将第一次接触到真正强大的通用智能体。

哪怕输出还不完美,但“几分钟内做到这些”,已经足以说明我们正站在一个新拐点上。

总结

这次评测最有价值的地方,不在于谁赢了谁输了,而在于它极其具体地展示了“通用AI Agent已经能做到什么,还做不好什么”。它们可以快速生成结构化成果,却仍然需要人类提供判断、范式和取舍。对每一个知识工作者来说,真正的竞争力,正在从“会不会用AI”,转向“能不能设计好任务、校准好方向、管理好Agent体系”。


关键词: AI Agent, ChatGPT Agent, 智能体管理, 上下文工程, AI技能升级

事实核查备注: 视频来源:The AI Daily Brief;发布时间:2025-07-20;测试工具:ChatGPT Agent、Manus;关键概念:deep research、computer use、prompt engineering、context engineering、multi-agent orchestration;时间细节:首次搜索约4分钟;产出形式:课程大纲、模块设计、PowerPoint工作手册