80%的Agent失败不是模型问题,而是搜索:一次上下文工程的反击
正在加载视频...
视频章节
你以为Agent不聪明,是模型不够强?Leonie Monigatti在这场工作坊里抛出一个反直觉结论:Context Engineering里,真正决定成败的不是Prompt,而是Search。更残酷的是,80%的问题都出在这里。
80%的Agent失败不是模型问题,而是搜索:一次上下文工程的反击
你以为Agent不聪明,是模型不够强?Leonie Monigatti在这场工作坊里抛出一个反直觉结论:Context Engineering里,真正决定成败的不是Prompt,而是Search。更残酷的是,80%的问题都出在这里。
一个扎心的判断:Context Engineering=80%的Agentic Search
在一开场,Leonie就给了全场一个“让人坐直”的结论:所谓上下文工程,本质上不是写Prompt的艺术,而是“从所有可能的上下文来源中,决定什么该进上下文窗口”的工程问题。而这个问题,80%靠的是Agentic Search。
这句话的杀伤力在于,它直接击穿了很多团队的默认假设——我们总在调Prompt、换模型、堆Chain,却很少认真问一句:Agent到底是怎么找信息的?
在真实系统里,上下文并不只来自一个向量库。它可能来自本地文件、长期记忆、计划文件、技能文档、数据库、Web,甚至是Agent自己的工作内存。Context Engineering的难点,从来不是“能不能塞进窗口”,而是“该不该塞、什么时候塞、用什么方式塞”。
从RAG到Agentic RAG:不是升级,是止血
Leonie用一段非常清晰的“进化史”解释了为什么传统RAG会失效。
最早的RAG,是一条固定管线:用户问题→向量检索→取Top K→塞给LLM。问题是,这条管线“太勤快了”:不管需不需要,先检索再说;遇到多跳问题,直接卡死。
于是我们引入Agentic RAG:把“检索”从流水线里拿出来,变成一个工具。Agent可以决定要不要搜、怎么改query、要不要再搜一次。
但这里有个容易被忽略的点:即使升级成Agentic RAG,你往往仍然只有一个上下文源——一个数据库。现实世界远比这复杂,而这正是后面一连串失败的根源。
Agentic Search最常见的三种死法
如果你觉得Agentic Search“看起来很简单”,那多半是还没上线。
Leonie总结了三种最常见、也最隐蔽的失败模式:
第一,Agent根本不调用工具。不是模型傻,而是工具描述写得太敷衍,Agent不知道“什么时候该用你”。
第二,Agent调用了错误的工具。当你有文件搜索、语义搜索、SQL、Web Search时,如果工具之间的边界不清晰,Agent只能靠猜。
第三,也是最致命的:参数生成错误。只要工具参数稍微复杂一点——filters、topK、DSL、SQL——错误率会直线上升。
一个关键洞察是:参数复杂度本身,就是一种failure mode。不是模型不行,而是你把一个“人都容易写错”的接口,直接丢给了Agent。
Demo为什么总是好看但没法用?
Leonie现场跑了一个“标准Agentic Search Demo”:Elasticsearch + embedding + semantic search,看起来一切完美。
直到她故意问了一个问题:GPA相关的session。
语义搜索返回了什么?Gemma模型。
这不是偶然,而是语义搜索的结构性问题:它只适合“语义相近”,对关键词、精确概念、缩写极度不友好。Demo之所以成立,是因为问题刚好落在工具的“甜蜜区”。
当她让Agent直接生成完整的ESQL查询时,问题又来了:通配符写错、语法错误、零结果该不该算失败?
这时真正的转折出现了:Agent Skills。
通过把ESQL语法、通配符规则、使用约束,做成可加载的Skill,并在Tool描述里明确“先加载Skill再用Tool”,Agent的成功率出现了质变。这里的关键词叫:Progressive Disclosure(渐进披露)。
Shell工具:最被低估的Agent神器
如果说前半段在讲“精致的搜索工具”,那后半段几乎是在拆台。
Leonie展示了一个看似原始但极其有效的方法:Shell Tool。
Agent用bash在本地文件系统里cd、ls、grep、cat,居然成功找到了GPA相关session。更惊人的是,Agent会自己链式组合命令,某种意义上“模拟”了语义搜索。
当然,grep不完美。于是她引入了GinaGrep这样的语义CLI工具,让Agent在Shell里直接调用。
这传递出一个非常实用的信号:不要低估通用工具的上限。Shell的floor很低,但ceiling极高,前提是你敢把它交给Agent,并且做好安全边界。
没有银弹,只有工具组合的艺术
在总结部分,Leonie给了一套极具操作性的原则:
第一,不存在“一个工具走天下”。
第二,工具要分层:低门槛的专用工具 + 高上限的通用工具。
第三,如果你还不了解Agent的行为,先给通用工具,先观察、再收敛。
第四,通过日志,识别哪些步骤值得被“固化”为专用工具或Skill。
这不是架构哲学,而是从大量失败中总结出来的工程直觉。
总结
这场分享最有价值的地方,不是某个Elastic技巧,而是一次思维重置:Agent失败,往往不是因为模型不够聪明,而是我们没有认真对待“搜索”这件事。
对实践者来说,三个直接的行动建议:第一,审视你的工具描述,它们是否真的告诉了Agent“什么时候该用我”;第二,把参数复杂度当成风险源,而不是功能;第三,勇敢使用Shell这类高上限工具,但用Skill和约束驯服它。
如果你最近在Agent项目上频频踩坑,或许不是该换模型了,而是该重新设计你的Agentic Search栈。
关键词: Agentic Search, Context Engineering, AI Agent, RAG, 上下文工程
事实核查备注: 需要核查:1)Leonie Monigatti姓名拼写;2)“Context Engineering 80%是Agentic Search”为演讲原意表达;3)GinaGrep、LlamaIndex等工具的具体名称与功能;4)ESQL作为Elastic查询语言的使用场景;5)视频发布时间2026-05-08。