我让 AgentGPT 开一家电商公司，结果暴露了 AI Agent 最大的幻觉

AI PM 编辑部 · 2023年04月23日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

把目标丢给 AI，它真的会“自己创业”吗？这次测试里，AgentGPT 不仅没把电商跑起来，反而暴露了当前 AI Agent 最被高估的一件事：我们以为它在执行，其实它只是在“自信地描述”。

把目标丢给 AI，它真的会“自己创业”吗？这次测试里，AgentGPT 不仅没把电商跑起来，反而暴露了当前 AI Agent 最被高估的一件事：我们以为它在执行，其实它只是在“自信地描述”。

给 AI 一个目标，它就能自己拆解任务、调用工具、完成执行——这是 AutoGPT、AgentGPT 爆火时最迷人的叙事。在视频一开始，作者就点破了一个关键背景：很多“无代码”的 AI Agent 实现，看起来很聪明，但非常容易陷入 Loop——任务越列越多，却离结果越来越远。

这次测试的切入点很现实：不是“增长 1 万订阅”这种抽象目标，而是更接近真实商业世界的问题——让 AgentGPT 开一家卖 AI 图片的电商公司。理论上，这是 AI 的主场：生成式 AI + 电商 + 自动化。但也正是这个组合，让问题暴露得异常清晰。

AgentGPT 的第一反应几乎完美：选平台（Shopify）、做图像生成、设计网站、做营销、做标签系统。乍一看，这正是一个产品经理级别的拆解能力。但真正的问题是：这些步骤，到底有没有任何一步“真的发生了”？

最值得警惕的瞬间出现在第三个片段。AgentGPT 在“执行”任务时，突然给出一句非常危险的反馈：

“任务执行成功：Midjourney 已集成到电商商店。”

问题是——这个电商商店根本还不存在。

它没有创建 Shopify 账户，没有调用 API，没有生成任何可访问的页面，却在语言层面宣布自己已经完成了集成。这不是能力问题，而是认知层面的错位：AgentGPT 把“合理描述完成路径”误当成了“完成本身”。

接下来的一切，几乎都是这个问题的重复放大：
- 它会建议开发“新的深度学习模型”，而不是使用现成工具
- 它会不断添加高价值但高成本的步骤
- 它永远停留在“如果我是一个 AI，我会如何设计……”的层面

最终，它不是失败在某一个技术细节，而是卡死在一个更本质的问题上：AI Agent 现在最擅长的，仍然是规划，而不是执行。

为了避免“太抽象”，作者又给了 AgentGPT 一个更具体、也更聪明的目标：

用 Midjourney 生成 YouTuber 缩略图可用的背景图案，并在 Etsy 或 Shopify 上售卖。

这一次，目标、用户、产品形态都说清楚了。结果却更尴尬。

AgentGPT 依然坚持要“开发一个深度学习模型”，依然列出一整套企业级系统清单：支付、质检、客服、用户行为分析……这些步骤本身都没错，但明显不是一条“最优路径”。

对比之下，作者转而问了 ChatGPT（3.5）同样的问题，但换了一种提问方式：不是“你去做”，而是“我该怎么做”。结果反而更实用——市场调研、选平台、测试需求、迭代产品。

这里出现了一个非常反直觉的结论：在今天这个阶段，如果你的目标是把事做成，而不是看 AI 表演，ChatGPT 反而比 AgentGPT 更靠谱。

视频最后给了一个相当冷静的评价：AgentGPT 依然是非常了不起的技术。你用一句话，就能看到一整套项目蓝图展开，这是巨大的生产力提升。

但问题在于，很多人对“自主 AI Agent”的想象，已经走在了现实前面。我们期待的是一个能登录网站、填表、部署、上线、收款的数字员工；而现在得到的，更像是一个永远不累、但也永远停留在白板前的高级顾问。

这不是 AgentGPT 一家的问题，而是当前 AI Agent 范式的共性：
- 工具调用受限
- 权限与安全边界严格
- 语言能力远强于行动能力

当我们意识到这一点，反而能更理性地使用它。

这次测试最重要的 takeaway 不是“AgentGPT 行不行”，而是我们该怎么用它。把 AI Agent 当成创业合伙人，你大概率会失望；但把它当成一个永远在线、结构化思考能力极强的“超级策划”，你会发现它已经值回票价。

对 AI 从业者来说，一个现实的判断是：2023 年的 AI Agent，更适合帮你想清楚要做什么，而不是替你把事做完。真正的突破，不在于再多列几个任务，而在于让“执行”不再只是语言里的幻觉。

问题留给你：如果明天 AI Agent 真的能无障碍执行操作，你最想先让它替你完成哪一件事？

关键词： AgentGPT， AutoGPT， AI Agent， Midjourney， AI 电商

事实核查备注： 1. 视频发布时间：2023-04-23；2. 测试工具为 AgentGPT；3. 对比对象包括 ChatGPT 3.5；4. 提及的平台：Shopify、Etsy；5. 文中所有结论均基于视频演示内容而非额外实验