上下文不是越长越好:一场关于Agent记忆的反直觉演讲

AI PM 编辑部 · 2026年05月10日 · 25 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在追逐更大的上下文窗口时,这场演讲却抛出一个冷水观点:上下文管理已经不是工程问题,而是产品问题。更反直觉的是,简单粗暴的“多给点上下文”,正在把Agent拖进一个越用越差的恶性循环。

上下文不是越长越好:一场关于Agent记忆的反直觉演讲

当所有人都在追逐更大的上下文窗口时,这场演讲却抛出一个冷水观点:上下文管理已经不是工程问题,而是产品问题。更反直觉的是,简单粗暴的“多给点上下文”,正在把Agent拖进一个越用越差的恶性循环。

炸裂开场:上下文窗口,正在悄悄毁掉你的Agent

演讲一开始,Sally-Ann Delucia 并没有炫技模型参数,而是直接点破一个行业“共识幻觉”:上下文窗口变大≠Agent变聪明。现实恰恰相反,很多系统正在被自己喂进去的上下文拖垮。

她把这个问题称为 context engineering,但很快话锋一转——这已经不只是工程师的烦恼,而是一个产品级别的问题。为什么?因为上下文决定的不是模型“能不能跑”,而是用户“愿不愿意用”。当用户的对话越来越长、任务越来越复杂,系统开始出现理解偏移、响应变慢、成本失控,这不是模型能力不足,而是上下文策略出了问题。

那个所有团队都会踩的坑:截断、总结,全都不灵

接下来她讲了一个极其真实的“恶性循环”:上下文满了 → 随便砍 → 结果变差 → 再加更多上下文 → 更快满。

第一个直觉解法,是最“工程师友好”的:naive truncation,直接把最早的内容砍掉。问题是,系统往往正是被这些“早期决定”所约束,砍掉它们,Agent 等于失忆。

那换总结行不行?她的结论同样冷酷:summarization 也不 work。总结会丢掉细节、语气和隐含约束,而这些恰恰是长对话里最重要的东西。你以为你在压缩信息,其实是在制造理解噪声。

这一段最有杀伤力的不是技术细节,而是那个判断:很多看似聪明的上下文压缩方案,本质上是在“自欺欺人”。

真正起作用的,是“有层级的记忆”,而不是更大的窗口

转折点出现在她们意识到:问题不在于“记住多少”,而在于“怎么记”。

团队最终走向的是一种 smart truncation memory 的思路——不是简单砍,而是有策略地保留、丢弃和重组上下文。这种做法之所以成功,是因为它承认了一件事:不是所有上下文都拥有同样的价值。

更关键的是,她把这套方法放进了真实世界的约束里讨论:长会话(long sessions)、数据密集型操作、可测试性。这些问题在 demo 里看不出来,但在产品里会要命。一个无法测试、无法解释的上下文策略,迟早会反噬团队自己。

这里的潜台词非常清晰:上下文管理,是系统架构的一部分,而不是 prompt 工程的附属品。

最被低估的一点:上下文策略,决定了你能走多远

在总结部分,她没有给出“万能方案”,反而强调了一种持续研究的心态。上下文管理不是一次性设计,而是需要随着用户行为、任务复杂度不断演进。

这也解释了为什么她反复强调这是 product problem。不同产品,对“记忆”的容忍度完全不同;不同用户,对错误的敏感程度也完全不同。你无法用一套抽象优雅的工程方案,解决所有真实世界的问题。

这场演讲最成熟的地方在于,它没有承诺奇迹,而是帮你避开幻觉。

总结

如果你正在做 Agent,最大的 takeaway 可能不是“学会某种记忆算法”,而是重新审视一个问题:你的系统,到底在为什么而记忆?上下文窗口不是越大越好,记住一切反而可能毁掉体验。下一步你可以做的,是把上下文当成产品能力来设计:哪些信息必须长期存在?哪些只在局部有效?如果删错了,会发生什么?真正拉开差距的 Agent,往往不是模型最强的,而是记忆管理最清醒的。


关键词: 上下文窗口, Agent记忆, Context Engineering, 层级记忆, 产品化AI

事实核查备注: 需要核查:演讲者姓名拼写(Sally-Ann Delucia);视频实际时长;“smart truncation memory”是否为演讲中的原始表述;是否明确提到总结方法不可行的具体原因。