80%的Agent失败不是模型问题，而是搜索：一次上下文工程的反击

AI PM 编辑部 · 2026年05月08日 · 38 阅读 · AI/人工智能

向量数据库检索增强生成大语言模型上下文窗口 AI Agent Embedding 提示工程 AI搜索 LangChain LlamaIndex

正在加载视频...

视频章节

你以为Agent不聪明，是模型不够强？Leonie Monigatti在这场工作坊里抛出一个反直觉结论：Context Engineering里，真正决定成败的不是Prompt，而是Search。更残酷的是，80%的问题都出在这里。

80%的Agent失败不是模型问题，而是搜索：一次上下文工程的反击

你以为Agent不聪明，是模型不够强？Leonie Monigatti在这场工作坊里抛出一个反直觉结论：Context Engineering里，真正决定成败的不是Prompt，而是Search。更残酷的是，80%的问题都出在这里。

一个扎心的判断：Context Engineering=80%的Agentic Search

在一开场，Leonie就给了全场一个“让人坐直”的结论：所谓上下文工程，本质上不是写Prompt的艺术，而是“从所有可能的上下文来源中，决定什么该进上下文窗口”的工程问题。而这个问题，80%靠的是Agentic Search。

这句话的杀伤力在于，它直接击穿了很多团队的默认假设——我们总在调Prompt、换模型、堆Chain，却很少认真问一句：Agent到底是怎么找信息的？

在真实系统里，上下文并不只来自一个向量库。它可能来自本地文件、长期记忆、计划文件、技能文档、数据库、Web，甚至是Agent自己的工作内存。Context Engineering的难点，从来不是“能不能塞进窗口”，而是“该不该塞、什么时候塞、用什么方式塞”。

从RAG到Agentic RAG：不是升级，是止血

Leonie用一段非常清晰的“进化史”解释了为什么传统RAG会失效。

最早的RAG，是一条固定管线：用户问题→向量检索→取Top K→塞给LLM。问题是，这条管线“太勤快了”：不管需不需要，先检索再说；遇到多跳问题，直接卡死。

于是我们引入Agentic RAG：把“检索”从流水线里拿出来，变成一个工具。Agent可以决定要不要搜、怎么改query、要不要再搜一次。

但这里有个容易被忽略的点：即使升级成Agentic RAG，你往往仍然只有一个上下文源——一个数据库。现实世界远比这复杂，而这正是后面一连串失败的根源。

Agentic Search最常见的三种死法

如果你觉得Agentic Search“看起来很简单”，那多半是还没上线。

Leonie总结了三种最常见、也最隐蔽的失败模式：

第一，Agent根本不调用工具。不是模型傻，而是工具描述写得太敷衍，Agent不知道“什么时候该用你”。

第二，Agent调用了错误的工具。当你有文件搜索、语义搜索、SQL、Web Search时，如果工具之间的边界不清晰，Agent只能靠猜。

第三，也是最致命的：参数生成错误。只要工具参数稍微复杂一点——filters、topK、DSL、SQL——错误率会直线上升。

一个关键洞察是：参数复杂度本身，就是一种failure mode。不是模型不行，而是你把一个“人都容易写错”的接口，直接丢给了Agent。

Demo为什么总是好看但没法用？

Leonie现场跑了一个“标准Agentic Search Demo”：Elasticsearch + embedding + semantic search，看起来一切完美。

直到她故意问了一个问题：GPA相关的session。

语义搜索返回了什么？Gemma模型。

这不是偶然，而是语义搜索的结构性问题：它只适合“语义相近”，对关键词、精确概念、缩写极度不友好。Demo之所以成立，是因为问题刚好落在工具的“甜蜜区”。

当她让Agent直接生成完整的ESQL查询时，问题又来了：通配符写错、语法错误、零结果该不该算失败？

这时真正的转折出现了：Agent Skills。

通过把ESQL语法、通配符规则、使用约束，做成可加载的Skill，并在Tool描述里明确“先加载Skill再用Tool”，Agent的成功率出现了质变。这里的关键词叫：Progressive Disclosure（渐进披露）。

Shell工具：最被低估的Agent神器

如果说前半段在讲“精致的搜索工具”，那后半段几乎是在拆台。

Leonie展示了一个看似原始但极其有效的方法：Shell Tool。

Agent用bash在本地文件系统里cd、ls、grep、cat，居然成功找到了GPA相关session。更惊人的是，Agent会自己链式组合命令，某种意义上“模拟”了语义搜索。

当然，grep不完美。于是她引入了GinaGrep这样的语义CLI工具，让Agent在Shell里直接调用。

这传递出一个非常实用的信号：不要低估通用工具的上限。Shell的floor很低，但ceiling极高，前提是你敢把它交给Agent，并且做好安全边界。

没有银弹，只有工具组合的艺术

在总结部分，Leonie给了一套极具操作性的原则：

第一，不存在“一个工具走天下”。
第二，工具要分层：低门槛的专用工具 + 高上限的通用工具。
第三，如果你还不了解Agent的行为，先给通用工具，先观察、再收敛。
第四，通过日志，识别哪些步骤值得被“固化”为专用工具或Skill。

这不是架构哲学，而是从大量失败中总结出来的工程直觉。

总结

这场分享最有价值的地方，不是某个Elastic技巧，而是一次思维重置：Agent失败，往往不是因为模型不够聪明，而是我们没有认真对待“搜索”这件事。

对实践者来说，三个直接的行动建议：第一，审视你的工具描述，它们是否真的告诉了Agent“什么时候该用我”；第二，把参数复杂度当成风险源，而不是功能；第三，勇敢使用Shell这类高上限工具，但用Skill和约束驯服它。

如果你最近在Agent项目上频频踩坑，或许不是该换模型了，而是该重新设计你的Agentic Search栈。

关键词： Agentic Search， Context Engineering， AI Agent， RAG，上下文工程

事实核查备注：需要核查：1）Leonie Monigatti姓名拼写；2）“Context Engineering 80%是Agentic Search”为演讲原意表达；3）GinaGrep、LlamaIndex等工具的具体名称与功能；4）ESQL作为Elastic查询语言的使用场景；5）视频发布时间2026-05-08。

返回文章列表