上下文不是越长越好：一场关于Agent记忆的反直觉演讲

AI PM 编辑部 · 2026年05月10日 · 25 阅读 · AI/人工智能

上下文窗口

正在加载视频...

视频章节

当所有人都在追逐更大的上下文窗口时，这场演讲却抛出一个冷水观点：上下文管理已经不是工程问题，而是产品问题。更反直觉的是，简单粗暴的“多给点上下文”，正在把Agent拖进一个越用越差的恶性循环。

上下文不是越长越好：一场关于Agent记忆的反直觉演讲

当所有人都在追逐更大的上下文窗口时，这场演讲却抛出一个冷水观点：上下文管理已经不是工程问题，而是产品问题。更反直觉的是，简单粗暴的“多给点上下文”，正在把Agent拖进一个越用越差的恶性循环。

炸裂开场：上下文窗口，正在悄悄毁掉你的Agent

演讲一开始，Sally-Ann Delucia 并没有炫技模型参数，而是直接点破一个行业“共识幻觉”：上下文窗口变大≠Agent变聪明。现实恰恰相反，很多系统正在被自己喂进去的上下文拖垮。

她把这个问题称为 context engineering，但很快话锋一转——这已经不只是工程师的烦恼，而是一个产品级别的问题。为什么？因为上下文决定的不是模型“能不能跑”，而是用户“愿不愿意用”。当用户的对话越来越长、任务越来越复杂，系统开始出现理解偏移、响应变慢、成本失控，这不是模型能力不足，而是上下文策略出了问题。

那个所有团队都会踩的坑：截断、总结，全都不灵

接下来她讲了一个极其真实的“恶性循环”：上下文满了 → 随便砍 → 结果变差 → 再加更多上下文 → 更快满。

第一个直觉解法，是最“工程师友好”的：naive truncation，直接把最早的内容砍掉。问题是，系统往往正是被这些“早期决定”所约束，砍掉它们，Agent 等于失忆。

那换总结行不行？她的结论同样冷酷：summarization 也不 work。总结会丢掉细节、语气和隐含约束，而这些恰恰是长对话里最重要的东西。你以为你在压缩信息，其实是在制造理解噪声。

这一段最有杀伤力的不是技术细节，而是那个判断：很多看似聪明的上下文压缩方案，本质上是在“自欺欺人”。

真正起作用的，是“有层级的记忆”，而不是更大的窗口

转折点出现在她们意识到：问题不在于“记住多少”，而在于“怎么记”。

团队最终走向的是一种 smart truncation memory 的思路——不是简单砍，而是有策略地保留、丢弃和重组上下文。这种做法之所以成功，是因为它承认了一件事：不是所有上下文都拥有同样的价值。

更关键的是，她把这套方法放进了真实世界的约束里讨论：长会话（long sessions）、数据密集型操作、可测试性。这些问题在 demo 里看不出来，但在产品里会要命。一个无法测试、无法解释的上下文策略，迟早会反噬团队自己。

这里的潜台词非常清晰：上下文管理，是系统架构的一部分，而不是 prompt 工程的附属品。

最被低估的一点：上下文策略，决定了你能走多远

在总结部分，她没有给出“万能方案”，反而强调了一种持续研究的心态。上下文管理不是一次性设计，而是需要随着用户行为、任务复杂度不断演进。

这也解释了为什么她反复强调这是 product problem。不同产品，对“记忆”的容忍度完全不同；不同用户，对错误的敏感程度也完全不同。你无法用一套抽象优雅的工程方案，解决所有真实世界的问题。

这场演讲最成熟的地方在于，它没有承诺奇迹，而是帮你避开幻觉。

总结

如果你正在做 Agent，最大的 takeaway 可能不是“学会某种记忆算法”，而是重新审视一个问题：你的系统，到底在为什么而记忆？上下文窗口不是越大越好，记住一切反而可能毁掉体验。下一步你可以做的，是把上下文当成产品能力来设计：哪些信息必须长期存在？哪些只在局部有效？如果删错了，会发生什么？真正拉开差距的 Agent，往往不是模型最强的，而是记忆管理最清醒的。

关键词：上下文窗口， Agent记忆， Context Engineering，层级记忆，产品化AI

事实核查备注：需要核查：演讲者姓名拼写（Sally-Ann Delucia）；视频实际时长；“smart truncation memory”是否为演讲中的原始表述；是否明确提到总结方法不可行的具体原因。

返回文章列表