Agent 不够聪明，问题不在模型：OpenAI 这场 Build Hour 把真相讲透了

AI PM 编辑部 · 2025年12月04日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你的 AI Agent 表现不稳定、前后矛盾、越跑越笨，问题很可能不在模型本身。这场来自 OpenAI 的 Build Hour 给出一个反直觉结论：决定 Agent 上限的，是你如何设计“记忆”。而且，大多数团队都用错了。

如果你的 AI Agent 表现不稳定、前后矛盾、越跑越笨，问题很可能不在模型本身。这场来自 OpenAI 的 Build Hour 给出一个反直觉结论：决定 Agent 上限的，是你如何设计“记忆”。而且，大多数团队都用错了。

视频一开始，解决方案架构团队就抛出一个让很多工程师不太舒服的事实：现代大语言模型的表现，更多取决于你给了它什么上下文，而不是模型本身有多强。

这句话背后的潜台词是——当你抱怨 Agent 不聪明时，很可能是在为糟糕的上下文工程买单。上下文窗口并不是“越塞越好”的信息仓库，而是一种需要被精心设计的接口。如果上下文混乱、冗余、低信号，即使是最强的模型，也只能给你“看起来像在思考，其实在凑字数”的回答。

这也是为什么 OpenAI 团队在视频中不断强调：不要把 context 当日志，而要当成产品。

真正有价值的部分，从他们谈“session 之间的连续性”开始。

很多 Agent 项目在单次对话里表现不错，一旦跨 session 就彻底失忆。团队指出，这并不是一个简单的“存不存历史”的问题，而是：你到底要让 Agent 记住什么。

他们强调一个关键词：high signal。不是完整对话记录，而是语义上有用、能被再次利用的字段。否则，历史越多，Agent 越容易被噪音拖垮。

这里一个容易被忽略的细节是：总结（summarization）本身是有损的。如果你不小心，连续几轮总结后，Agent 记住的可能只剩“看起来合理”的残影，而不是事实本身。

在 demo 环节，他们展示了一个非常实用但少有人系统讲清的概念：context burst。

不是所有信息都应该常驻在上下文里。有些信息，只在特定任务阶段突然变得极其重要。这时候，与其长期携带，不如在关键节点“注入”高密度上下文。

相反，对于长期存在的、但信息密度极高的内容，则需要通过工程手段进行压缩、结构化，而不是原封不动地塞进去。

这其实是在提醒开发者：上下文管理不是静态配置，而是一套动态调度系统。Agent 的表现，取决于你是否在正确的时间，给了正确形态的信息。

视频后段谈到“long-term memory”时，OpenAI 团队刻意避开了一个常见误区：把长期记忆等同于外部存储。

存下来只是第一步，关键在于——你能否在合适的时候，把这段记忆重新注入到 Agent 的上下文中，而且不破坏当前任务。

他们展示的思路更像是一种“记忆管道”：筛选、总结、存储、再注入。每一步都有取舍，也都有风险。

一个很有价值的实验是：对比 memory on 和 off 的表现。不是为了证明“有记忆一定更好”，而是找出记忆在哪些场景下真正提升了决策质量。

这场 Build Hour 释放出的信号非常明确：Agent 的竞争，正在从模型能力转向记忆与上下文工程能力。对从业者来说，下一步不是追更大的模型，而是系统性地审视：你的 Agent 到底在“记住”什么，又在什么时候“忘记”什么。

一个可立即行动的建议是：拿你现有的 Agent，做一次 memory on/off 的对照测试，再审视一次你注入上下文的每一个字段——它真的值得占用窗口吗？

未来，真正拉开差距的，不是谁的模型更新得快，而是谁更懂得如何与模型“协作思考”。

关键词：上下文工程， Agent 记忆，大语言模型， Context Window， AI Agent

事实核查备注：需要核查：视频的准确发布时间；Build Hour 是否为 OpenAI 官方系列；演讲者 Emry 的身份与团队；是否明确使用了“context burst”“long-term memory”等原词。