企业级 AI Agent 最大的坑,不是模型不聪明,而是不知道先用哪把工具

AI PM 编辑部 · 2024年12月17日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 的社区舞台上,Sana AI 抛出了一个反直觉结论:企业级 AI Agent 失败的真正原因,往往不是模型能力不够,而是工具调用顺序错了。这场分享不仅有真实产品 Demo,还给出了一套可复用的 Agent 设计方法论。

企业级 AI Agent 最大的坑,不是模型不聪明,而是不知道先用哪把工具

在 OpenAI DevDay 的社区舞台上,Sana AI 抛出了一个反直觉结论:企业级 AI Agent 失败的真正原因,往往不是模型能力不够,而是工具调用顺序错了。这场分享不仅有真实产品 Demo,还给出了一套可复用的 Agent 设计方法论。

最反直觉的一点:Agent 失败,90%不是模型问题

Jerry 一上来就把气氛拉满:Sana 的使命不是“做更聪明的 AI”,而是“解决知识的访问问题”。听起来很宏大,但真正让台下从业者点头的是后半句——在企业场景里,Agent 经常翻车,不是因为 GPT-4o 不够强,而是因为它不知道先做什么、再做什么

在 Salesforce 的例子里,一个看似简单的需求——“列出某个销售在某个阶段的机会”,背后其实至少要经历三步:先理解 CRM schema,再定位具体用户,再生成正确的查询。如果 Agent 直接跳到 SQL,几乎必错。这不是推理能力的问题,而是缺乏流程意识的问题。

Sana 的解法:把“流程”显式写给 Agent 看

Daniel 给出了一个非常工程化、但极其有效的发现:指令放在哪,比你写得多聪明更重要

他们测试了多种 Agent 配置方式:
- 把步骤写在 system message 里
- 写在 tool description 里
- 甚至写成“工具依赖关系”

最终结果很清晰:在 user message 里直接给出 how-to 指南,效果最好。哪怕同时提供 15 个工具,Agent 也能稳定选对顺序,完整跑完流程。

这其实是在告诉我们一件很“反 LLM 直觉”的事:不要指望 Agent 自己悟流程,把流程当成一等公民写出来,成功率立刻上一个台阶。

Tool Set:让多才多艺的 Agent 不再精神分裂

当 Agent 既要查 Salesforce,又要写 Google Doc,还可能连 Snowflake,一团乱麻几乎是必然结果。Sana 的答案是一个内部概念:Tool Set。

一个 Tool Set 包含三样东西:
- 明确的任务名称(比如“Explore Salesforce Records”)
- 完成这个任务所需的最小工具集合
- 跨工具的使用顺序说明

这相当于把“复杂 workflow”打包成一个可理解的能力模块。Agent 不再面对 50 把工具发呆,而是先路由到正确的 Tool Set,再在限定上下文里行动。这一步,本质上是在给 Agent 做能力边界管理

高完整性反馈:Agent 需要知道世界真的发生了什么

最后一个容易被忽视,但极其关键的点:高完整性 Tool Response

在 Sana 里,Agent 并不是直接和 API 对话,而是通过一层验证与人类协作流程。用户可能会修改字段、取消操作、延迟提交。Sana 会把这些真实发生的状态——谁改了什么、什么时候提交、API 是否成功——完整反馈给 Agent。

这让 Agent 不再“活在幻觉里”,而是能基于真实世界状态做下一步判断。这种设计,才是真正让 Agent 能和人协作、而不是只会单向执行命令的关键。

总结

这场分享给 AI 从业者留下了两个极其可落地的结论:第一,别再迷信模型能力,复杂 Agent 成败的关键是流程是否被显式表达;第二,把工具、顺序和反馈设计成系统的一部分,而不是 Prompt 里的临时技巧。

如果你正在做企业级 Agent,现在就可以行动:选一个真实 workflow,把“先做什么、后做什么”写成明确指令;再检查你的 Agent 是否真的知道用户和系统发生了什么变化。下一波生产力红利,不属于更大的模型,而属于更懂系统设计的人。


关键词: AI Agent, 企业级AI, 提示工程, GPT-4o, Agent架构

事实核查备注: Sana AI 在演讲中宣布的新一轮融资金额是否为 5500 万美元;视频发布时间为 2024-12-17;所使用模型提及为 GPT-4o;Demo 涉及的工具包括 Salesforce 与 Google Docs