一次真实测评：让ChatGPT Agent自己做一门“智能体管理”课程，结果如何？

AI PM 编辑部 · 2025年07月20日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

这期视频中，The AI Daily Brief 主播用一个非常具体、也极具现实意义的任务测试了刚发布不久的 ChatGPT Agent：让它从零创建一门“AI Agent 管理”完整课程。结果既不完美，也极具启发性，清楚展示了通用智能体正在逼近的能力边界。

一次真实测评：让ChatGPT Agent自己做一门“智能体管理”课程，结果如何？

这期视频中，The AI Daily Brief 主播用一个非常具体、也极具现实意义的任务测试了刚发布不久的 ChatGPT Agent：让它从零创建一门“AI Agent 管理”完整课程。结果既不完美，也极具启发性，清楚展示了通用智能体正在逼近的能力边界。

为什么要用“做一门课”来测试ChatGPT Agent？

这次评测的出发点，本身就带着强烈的个人情绪和行业判断。演讲者直言，自己“现在对很多还停留在2023年AI技能框架里的学习平台非常不满”。在他看来，行业真正的转折点已经从“如何更好地使用助手型AI”，转向“如何设计、编排和管理成体系的AI Agent”。

正是在这个背景下，他选择了一个极具综合性的测试任务：让 ChatGPT Agent 独立创建一门关于“AI Agent 管理”的完整自学课程。这不是一篇博客，也不是营销用的入门内容，而是一个“端到端、可以真正学完的课程”。他在提示中明确要求：要有课程大纲、模块拆分、学习活动和可执行的待办事项，而且不是为了引流更大课程的“试吃版”。

这个任务之所以重要，是因为它天然结合了研究、结构化写作、工具使用和产出物生成，正好命中 ChatGPT Agent 宣称的核心能力组合——深度研究 + 电脑操作 + 终端与内容生成。用演讲者的话说，这是一个“deep research plus a production task”的典型用例。

ChatGPT Agent是如何“像同事一样”完成这项工作的？

在演示过程中，一个非常具体、也很容易被忽略的细节是：ChatGPT Agent 并不是一次性给出结果，而是通过一个“虚拟电脑”逐步完成任务。它会先搜索资料、再整理结构、再细化内容，而这些过程对用户是可见、可打断、可修正的。

演讲者提到，第一次搜索大约花了4分钟，随后又用了几分钟进行内容精炼；当他要求把材料转成演示文稿时，时间更长一些。但关键不在速度，而在交互方式。他特别强调：“就像你把任务交给一个同事一样，你可以在它还没做完的时候继续给反馈，调整方向。”

为了更自然地表达需求，他甚至没有打字，而是使用了语音输入（dictate），一边“碎碎念”自己的背景和期待，一边把任务交代清楚。这种非结构化输入，反而很好地测试了模型对意图的理解能力，也暴露出一个重要事实：Agent 对用户给出的例子和框架有非常强的依附性，后续结果会明显沿着这些轨道展开。

第一版课程长什么样？亮点与明显短板

四分钟后，ChatGPT Agent 给出了一门名为“Getting Good at Agent Management”的课程初稿，整体结构相当完整：一个总览，加上七个模块。

前几个模块的质量令人意外地扎实。模块一是 AI Agent 基础，涵盖“什么是AI Agent”“什么时候应该构建Agent”“Agent的组成”“Agent类型”和“主流框架概览”，每一部分都配有关键要点、学习资源和活动。模块二聚焦最新的提示工程（prompt engineering），模块三则是更深入的上下文工程（context engineering），不仅讲背景和方法，还设计了动手任务，比如构建上下文存储、测试不同上下文长度的影响。

演讲者明确肯定了这一点，认为这些活动“是开始真正理解上下文工程的好方式”。但问题也很快出现。从模块五开始，内容逐渐失焦：关于 MCP 生态里的 vibe coding，更像资料汇编；模块六讲多智能体编排，模块七讲安全护栏与评估，模块八是毕业项目和灵感启发。想法不差，但“课程感”在减弱，活动开始变得泛化。

他的评价很直接：这是一个“okay but not something I would push”的版本。

关键转折：补上“真正的动手经验”之后发生了什么

真正的转折点，来自演讲者对“缺失部分”的一次精准点名：实践深度不够。他随后要求 ChatGPT Agent 创建一个更系统的“Agent 管理活动库”，涵盖初级、中级和高级工作流，明确点名 NADN、Lindy，以及使用 Manus 或 ChatGPT Agent 本身来完成任务。

结果很有意思。模型几乎完全沿用了他给出的示例结构，生成了一个新的模块九，专门用于 hands-on agent management。这一方面说明 Agent 的可塑性很强，另一方面也暴露了它的局限：它非常依赖用户给出的范式，而不是主动重构更优解。

接下来，他又让 Agent 生成配套的活动型工作手册或演示文稿。最终产出是一个大约20页的 PowerPoint，步骤清晰、资源齐全，但只覆盖了活动库，没有整合其他模块的实践内容。即便在多轮修改后，他仍然给了一个“慷慨的 C 等级”评价：“它能让你比大多数人强，但确实有点杂乱、不够精致。”

即便如此，他反复强调：几分钟内完成这些工作的效率，本身就是一个无法忽视的信号。

和Manus正面对比后的真正启示

为了让判断更公平，演讲者做了最后一个测试：把完全相同的提示词，原封不动地丢给 Manus。结果是，Manus 的整体表现明显更好，大约在 B- 到 B 之间。

它的优势不在单点能力，而在“做事方式”。Manus 会更清楚地展示进度、分步骤推进结构，课程大纲更紧凑；在扩展活动和生成工作手册时，逻辑也更连贯，甚至主动提出可以把成果直接做成一个网站。

但结论并不是“ChatGPT Agent输了”。恰恰相反，演讲者给出了一个更有现实意义的判断：“Manus 现在更 polished，但 ChatGPT Agent 会触达更多人。”随着 ChatGPT 的分发优势，很多人即将第一次接触到真正强大的通用智能体。

哪怕输出还不完美，但“几分钟内做到这些”，已经足以说明我们正站在一个新拐点上。

总结

这次评测最有价值的地方，不在于谁赢了谁输了，而在于它极其具体地展示了“通用AI Agent已经能做到什么，还做不好什么”。它们可以快速生成结构化成果，却仍然需要人类提供判断、范式和取舍。对每一个知识工作者来说，真正的竞争力，正在从“会不会用AI”，转向“能不能设计好任务、校准好方向、管理好Agent体系”。

关键词： AI Agent， ChatGPT Agent，智能体管理，上下文工程， AI技能升级

事实核查备注：视频来源：The AI Daily Brief；发布时间：2025-07-20；测试工具：ChatGPT Agent、Manus；关键概念：deep research、computer use、prompt engineering、context engineering、multi-agent orchestration；时间细节：首次搜索约4分钟；产出形式：课程大纲、模块设计、PowerPoint工作手册

返回文章列表