正在加载视频...
视频章节
在这场超过一小时的分享里,Peter Werry抛出一个让很多AI工程师不舒服的观点:你现在做的RAG,很可能从一开始方向就错了。更反直觉的是,他认为真正浪费token、拖慢Agent效率的,并不是模型不够强,而是我们还在用“人脑时代”的方式喂上下文。
他当众拆穿RAG神话:为什么AI Agent真正缺的是“上下文引擎”
在这场超过一小时的分享里,Peter Werry抛出一个让很多AI工程师不舒服的观点:你现在做的RAG,很可能从一开始方向就错了。更反直觉的是,他认为真正浪费token、拖慢Agent效率的,并不是模型不够强,而是我们还在用“人脑时代”的方式喂上下文。
最刺耳的一句话:四年前,你就是上下文引擎
Peter在开场没多久就抛出一句极具杀伤力的话:“不久之前——大概四年内——你本人,就是AI的context engine。”
这句话之所以刺耳,是因为它点破了一个被忽略的事实:早期所谓的“AI Agent”,几乎所有上下文整合工作,都是人肉完成的。你记得项目背景、你知道哪些文档相关、你在脑子里做过滤、排序、取舍,然后再把“精华”喂给模型。
问题是,当我们把Agent规模化、并行化、接上工具(MCP)、技能(skills)之后,这套“靠人记”的上下文机制彻底崩了。模型不再是一个聊天对象,而是一个需要持续、精准、可合并上下文输入的执行体。
Peter的判断很直接:Agent能力的上限,正在被上下文工程锁死,而不是模型能力。
并行Agent时代,没有上下文=没有智能
在视频中段,他展示了一个清晰的演进路径:从单一Agent,到并行Agent,再到通过MCP连接外部系统。
每往前一步,对上下文的要求都不是线性增长,而是指数级复杂。
- 单Agent:还能靠一次prompt兜住
- 多Agent并行:需要共享、隔离、合并上下文
- 接入工具与组织数据:上下文开始“带状态”
他引用了一句业内共识(由Andrew/Andre提出):“没有上下文,就没有Agent。”
这不是哲学判断,而是工程事实。并行Agent如果没有统一、可合并的上下文层,只会产生三种结果:
1. 重复调用,token暴涨
2. 冲突决策,行为不稳定
3. 看似很忙,实际上没产出
于是,context engine不再是‘优化项’,而是Agent系统的基础设施。
第一个神话:Naive RAG over docs 根本不够用
到了全场最“拆台”的部分,Peter开始逐条点名行业神话。
神话一:在文档上做个RAG,就算有上下文引擎了。
他的态度非常明确:这是“naive RAG”,只能解决最表层的问题。
原因很简单:
- 文档不是任务上下文
- 相似度检索不等于相关性
- 历史状态、用户偏好、组织结构,根本不在文档里
他强调,真正有用的上下文,是随任务动态演化的结构化信息,而不是一次性塞进prompt的文本块。
这也是为什么很多团队会遇到一个怪现象:
文档越多,Agent反而越笨。
因为你没有一个机制,决定“现在这个时刻,哪些上下文值得被带入,哪些应该被丢弃”。
一个合格的Context Engine,至少要满足6个条件
在18分钟左右,Peter给出了他们实践中总结的“六个宽泛但致命的要求”。虽然他没有把每一条包装成方法论,但工程味非常重。
其中反复被强调的包括:
- Targeted Retrieval:不是找最像的,而是找“此刻最该用的”
- Personal Context:不同用户、不同Agent,不该共享同一份世界观
- Mergeable by Default:上下文必须天然可合并,而不是靠人兜底
- Token Efficiency:省token不是靠截断,而是靠选择
这里最反直觉的一点是“mergeable by default”。
大多数系统是在冲突出现后才尝试合并上下文,而他们的设计是:所有上下文从生成那一刻起,就假设未来会被合并。
这直接改变了数据结构、存储方式和Agent之间的协作模式。
踩坑实录:为什么上下文一复杂,系统就开始失控
在“hard lessons”部分,Peter的语气明显变得务实。
他们做过一个小实验:不断给Agent叠加上下文层,直到系统出现异常。结果并不意外,但很有警示意义——
- 上下文没有优先级 → Agent犹豫不决
- 没有时间衰减 → 旧信息长期污染决策
- 缺乏结构 → 调试几乎不可能
最糟糕的情况是:你以为Agent变聪明了,其实只是变得更自信地犯错。
这也是为什么他反复强调:context engine不是feature,而是一套需要长期演进的系统工程。
总结
这场分享真正有价值的地方,不在于某个具体实现,而在于它逼你重新审视一个问题:你现在做的AI Agent,到底是谁在“理解世界”?
如果答案还是“工程师+prompt+一点RAG”,那你的系统天花板已经写死了。Peter给出的takeaway很清晰:把上下文当成一等公民,把合并当成默认假设,把token当成成本而不是资源。
一个值得你回去立刻思考的问题是:如果明天你的Agent数量翻10倍,你的上下文体系还能撑住吗?
关键词: Context Engine, AI Agent, RAG神话, 并行Agent, Token效率
事实核查备注: 需要核查:1)Peter Werry 的完整身份与所在组织;2)Andrew/Andre 的原始表述来源;3)MCP 的准确全称与定义;4)“六个要求”的具体原始表述是否有遗漏;5)视频中实验的具体设置与结论边界