他当众拆穿RAG神话：为什么AI Agent真正缺的是“上下文引擎”

AI PM 编辑部 · 2026年05月03日 · 27 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场超过一小时的分享里，Peter Werry抛出一个让很多AI工程师不舒服的观点：你现在做的RAG，很可能从一开始方向就错了。更反直觉的是，他认为真正浪费token、拖慢Agent效率的，并不是模型不够强，而是我们还在用“人脑时代”的方式喂上下文。

在这场超过一小时的分享里，Peter Werry抛出一个让很多AI工程师不舒服的观点：你现在做的RAG，很可能从一开始方向就错了。更反直觉的是，他认为真正浪费token、拖慢Agent效率的，并不是模型不够强，而是我们还在用“人脑时代”的方式喂上下文。

Peter在开场没多久就抛出一句极具杀伤力的话：“不久之前——大概四年内——你本人，就是AI的context engine。”

这句话之所以刺耳，是因为它点破了一个被忽略的事实：早期所谓的“AI Agent”，几乎所有上下文整合工作，都是人肉完成的。你记得项目背景、你知道哪些文档相关、你在脑子里做过滤、排序、取舍，然后再把“精华”喂给模型。

问题是，当我们把Agent规模化、并行化、接上工具（MCP）、技能（skills）之后，这套“靠人记”的上下文机制彻底崩了。模型不再是一个聊天对象，而是一个需要持续、精准、可合并上下文输入的执行体。

Peter的判断很直接：Agent能力的上限，正在被上下文工程锁死，而不是模型能力。

在视频中段，他展示了一个清晰的演进路径：从单一Agent，到并行Agent，再到通过MCP连接外部系统。

每往前一步，对上下文的要求都不是线性增长，而是指数级复杂。

他引用了一句业内共识（由Andrew/Andre提出）：“没有上下文，就没有Agent。”

这不是哲学判断，而是工程事实。并行Agent如果没有统一、可合并的上下文层，只会产生三种结果：
1. 重复调用，token暴涨
2. 冲突决策，行为不稳定
3. 看似很忙，实际上没产出

于是，context engine不再是‘优化项’，而是Agent系统的基础设施。

到了全场最“拆台”的部分，Peter开始逐条点名行业神话。

神话一：在文档上做个RAG，就算有上下文引擎了。

他的态度非常明确：这是“naive RAG”，只能解决最表层的问题。

原因很简单：
- 文档不是任务上下文
- 相似度检索不等于相关性
- 历史状态、用户偏好、组织结构，根本不在文档里

他强调，真正有用的上下文，是随任务动态演化的结构化信息，而不是一次性塞进prompt的文本块。

这也是为什么很多团队会遇到一个怪现象：

文档越多，Agent反而越笨。

因为你没有一个机制，决定“现在这个时刻，哪些上下文值得被带入，哪些应该被丢弃”。

在18分钟左右，Peter给出了他们实践中总结的“六个宽泛但致命的要求”。虽然他没有把每一条包装成方法论，但工程味非常重。

其中反复被强调的包括：

这里最反直觉的一点是“mergeable by default”。

大多数系统是在冲突出现后才尝试合并上下文，而他们的设计是：所有上下文从生成那一刻起，就假设未来会被合并。

这直接改变了数据结构、存储方式和Agent之间的协作模式。

在“hard lessons”部分，Peter的语气明显变得务实。

他们做过一个小实验：不断给Agent叠加上下文层，直到系统出现异常。结果并不意外，但很有警示意义——

最糟糕的情况是：你以为Agent变聪明了，其实只是变得更自信地犯错。

这也是为什么他反复强调：context engine不是feature，而是一套需要长期演进的系统工程。

这场分享真正有价值的地方，不在于某个具体实现，而在于它逼你重新审视一个问题：你现在做的AI Agent，到底是谁在“理解世界”？

如果答案还是“工程师+prompt+一点RAG”，那你的系统天花板已经写死了。Peter给出的takeaway很清晰：把上下文当成一等公民，把合并当成默认假设，把token当成成本而不是资源。

一个值得你回去立刻思考的问题是：如果明天你的Agent数量翻10倍，你的上下文体系还能撑住吗？

关键词： Context Engine， AI Agent， RAG神话，并行Agent， Token效率

事实核查备注：需要核查：1）Peter Werry 的完整身份与所在组织；2）Andrew/Andre 的原始表述来源；3）MCP 的准确全称与定义；4）“六个要求”的具体原始表述是否有遗漏；5）视频中实验的具体设置与结论边界