企业级 AI Agent 最大的坑，不是模型不聪明，而是不知道先用哪把工具

AI PM 编辑部 · 2024年12月17日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 的社区舞台上，Sana AI 抛出了一个反直觉结论：企业级 AI Agent 失败的真正原因，往往不是模型能力不够，而是工具调用顺序错了。这场分享不仅有真实产品 Demo，还给出了一套可复用的 Agent 设计方法论。

在 OpenAI DevDay 的社区舞台上，Sana AI 抛出了一个反直觉结论：企业级 AI Agent 失败的真正原因，往往不是模型能力不够，而是工具调用顺序错了。这场分享不仅有真实产品 Demo，还给出了一套可复用的 Agent 设计方法论。

Jerry 一上来就把气氛拉满：Sana 的使命不是“做更聪明的 AI”，而是“解决知识的访问问题”。听起来很宏大，但真正让台下从业者点头的是后半句——在企业场景里，Agent 经常翻车，不是因为 GPT-4o 不够强，而是因为它不知道先做什么、再做什么。

在 Salesforce 的例子里，一个看似简单的需求——“列出某个销售在某个阶段的机会”，背后其实至少要经历三步：先理解 CRM schema，再定位具体用户，再生成正确的查询。如果 Agent 直接跳到 SQL，几乎必错。这不是推理能力的问题，而是缺乏流程意识的问题。

Daniel 给出了一个非常工程化、但极其有效的发现：指令放在哪，比你写得多聪明更重要。

他们测试了多种 Agent 配置方式：
- 把步骤写在 system message 里
- 写在 tool description 里
- 甚至写成“工具依赖关系”

最终结果很清晰：在 user message 里直接给出 how-to 指南，效果最好。哪怕同时提供 15 个工具，Agent 也能稳定选对顺序，完整跑完流程。

这其实是在告诉我们一件很“反 LLM 直觉”的事：不要指望 Agent 自己悟流程，把流程当成一等公民写出来，成功率立刻上一个台阶。

当 Agent 既要查 Salesforce，又要写 Google Doc，还可能连 Snowflake，一团乱麻几乎是必然结果。Sana 的答案是一个内部概念：Tool Set。

一个 Tool Set 包含三样东西：
- 明确的任务名称（比如“Explore Salesforce Records”）
- 完成这个任务所需的最小工具集合
- 跨工具的使用顺序说明

这相当于把“复杂 workflow”打包成一个可理解的能力模块。Agent 不再面对 50 把工具发呆，而是先路由到正确的 Tool Set，再在限定上下文里行动。这一步，本质上是在给 Agent 做能力边界管理。

最后一个容易被忽视，但极其关键的点：高完整性 Tool Response。

在 Sana 里，Agent 并不是直接和 API 对话，而是通过一层验证与人类协作流程。用户可能会修改字段、取消操作、延迟提交。Sana 会把这些真实发生的状态——谁改了什么、什么时候提交、API 是否成功——完整反馈给 Agent。

这让 Agent 不再“活在幻觉里”，而是能基于真实世界状态做下一步判断。这种设计，才是真正让 Agent 能和人协作、而不是只会单向执行命令的关键。

这场分享给 AI 从业者留下了两个极其可落地的结论：第一，别再迷信模型能力，复杂 Agent 成败的关键是流程是否被显式表达；第二，把工具、顺序和反馈设计成系统的一部分，而不是 Prompt 里的临时技巧。

如果你正在做企业级 Agent，现在就可以行动：选一个真实 workflow，把“先做什么、后做什么”写成明确指令；再检查你的 Agent 是否真的知道用户和系统发生了什么变化。下一波生产力红利，不属于更大的模型，而属于更懂系统设计的人。

关键词： AI Agent，企业级AI，提示工程， GPT-4o， Agent架构

事实核查备注： Sana AI 在演讲中宣布的新一轮融资金额是否为 5500 万美元；视频发布时间为 2024-12-17；所使用模型提及为 GPT-4o；Demo 涉及的工具包括 Salesforce 与 Google Docs