让 AI Agent 真正“活着”的两条路:Replay 已经不够用了

AI PM 编辑部 · 2026年05月10日 · 33 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数 AI Agent 不是“变笨”,而是被后端基础设施活活拖死的。Eric Allam 在这场演讲里抛出一个反直觉结论:传统三十年的无状态后端范式,正在系统性地阻碍 Agent 变得长期、可靠、可恢复。这篇文章讲清两条关键路线,以及为什么 Snapshot 正在反超 Replay。

让 AI Agent 真正“活着”的两条路:Replay 已经不够用了

大多数 AI Agent 不是“变笨”,而是被后端基础设施活活拖死的。Eric Allam 在这场演讲里抛出一个反直觉结论:传统三十年的无状态后端范式,正在系统性地阻碍 Agent 变得长期、可靠、可恢复。这篇文章讲清两条关键路线,以及为什么 Snapshot 正在反超 Replay。

Agent 的真正难题,不在模型,在基础设施

演讲一开始,Eric Allam 就把矛头对准了一个很少被质疑的前提:我们默认 Agent 跑在“现代后端”上是合理的。但问题恰恰在这里。

过去 30 年,Web 后端从 CGI、PHP 到“request + DB = response”,核心思想只有一个——无状态(stateless)。请求进来、算一遍、返回结果、结束。共享尽量少,失败就重来。这套范式极其成功,也极其稳定。

但 Agent 完全不是这么一回事。

Agent 有循环(agent loop)、有工具调用、有多步副作用、会等待、会失败、还要继续。它更像一个“活着的进程”,而不是一次 HTTP 请求。Eric 在台上说得很直白:“an agent isn't like a transaction.”

当你试图用无状态系统去承载一个长期存在、持续决策的 Agent,本质上是在用螺丝刀敲钉子。模型能力再强,基础设施不变,Agent 也迟早会崩。

Replay 模型:我们最熟悉,也最容易踩坑的解法

行业里最早、也最自然的解法,就是 Replay。

思路很工程师:既然进程不能活太久,那我就把所有输入和副作用记录下来。一旦失败,就从头 replay,一步步重放,直到跑回失败点。这套模型在工作流引擎、durable execution 系统里非常成熟。

它确实解决了问题——至少在 Agent 还很“短”的时候。

但 Eric 点出了几个致命痛点:

  • 异步副作用地狱:多步骤工具调用 + 外部系统,一旦顺序或幂等没处理好,replay 就会制造新 bug。
  • 版本化噩梦:代码变了,历史 replay 该不该按旧逻辑跑?现实里这是一个极其棘手的问题。
  • 上下文膨胀:每一次 LLM 调用、每一步工具结果都在累积,token 和状态一起爆炸。

Replay 很像数据库的 WAL:可靠,但越来越重。Agent 一旦开始做“有意义的长期工作”,它就开始吃力了。

Agent 真正需要的两样东西:上下文 + 执行

演讲中段,Eric 做了一个非常清晰、也非常有启发性的拆分:

Agent 的持久性,本质上是两件事。

第一,是上下文(context)。
- 对话历史
- 工具调用记录
- 决策轨迹

这部分非常适合 append-only log,便宜、可扩展、也好理解。

第二,是执行(execution)。
- Agent 正在跑什么代码
- 内存里有什么状态
- 打开了哪些文件、等待了哪些事件

问题恰恰出在这里。

Replay 试图用“重放历史”去重建执行状态,但这是一种间接且脆弱的方式。Eric 提出的反直觉问题是:

“如果我们根本不重建,而是直接把机器记住呢?”

这就引出了第二条路。

Snapshot:把 Agent 当成一台可以暂停的机器

Snapshot 模型的想法听起来很“老派”:

不 replay,不重算,直接把正在运行的机器状态整个快照下来。出问题了,就 restore 回去,继续跑。

Eric 甚至追溯了历史:1966 年的 IBM 大型机就有 snapshot/restore;2011 年虚拟化开始普及;到 2024 年,他们终于把这件事真正用在 Agent 上。

关键突破不在理念,而在工程细节:

  • 使用 Firecracker microVM
  • 默认机器内存巨大,但 snapshot 只保存被实际触碰的内存页
  • 快照可以被压缩到 14MB 级别
  • 恢复速度极快,支持 每分钟 15,000 次 VM 启动

结果是一个反常识的结论:

Stateful compute,反而可以跑在看起来“无状态”的基础设施之上。

当然,代价也存在:snapshot 整台机器并不便宜,版本迁移也需要重新设计。但相比 Replay 的复杂性,这是一种更贴近 Agent 本质的解法。

总结

这场演讲真正值钱的,不是 Replay vs Snapshot 的技术对比,而是一个视角转变:Agent 不是一次请求的延伸,而是一种全新的计算形态。

如果你正在做 Agent:当它开始需要等待、恢复、跨版本存活时,Replay 可能已经在偷偷拖慢你。如果你在做平台或基础设施:Snapshot 不只是性能优化,而是一次范式回归——让“长期运行的程序”重新成为一等公民。

接下来的几年,Agent 能不能从 Demo 走向生产,拼的可能不是模型,而是谁先接受一个事实:我们需要为“活着的 Agent”,重建后端。


关键词: AI Agent, 大语言模型, Durable Execution, Replay 模型, Snapshot 模型

事实核查备注: 需要核查的关键事实包括:演讲者 Eric Allam 的身份与所属项目;Replay 模型与 Snapshot 模型的定义是否与原视频一致;IBM 大型机 1966 年 snapshot 的历史表述;Firecracker microVM 的使用时间线;14MB 快照大小与每分钟 15,000 次 VM 启动的数据;视频发布时间 2026-05-10。