让 AI Agent 真正“活着”的两条路：Replay 已经不够用了

AI PM 编辑部 · 2026年05月10日 · 33 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数 AI Agent 不是“变笨”，而是被后端基础设施活活拖死的。Eric Allam 在这场演讲里抛出一个反直觉结论：传统三十年的无状态后端范式，正在系统性地阻碍 Agent 变得长期、可靠、可恢复。这篇文章讲清两条关键路线，以及为什么 Snapshot 正在反超 Replay。

让 AI Agent 真正“活着”的两条路：Replay 已经不够用了

大多数 AI Agent 不是“变笨”，而是被后端基础设施活活拖死的。Eric Allam 在这场演讲里抛出一个反直觉结论：传统三十年的无状态后端范式，正在系统性地阻碍 Agent 变得长期、可靠、可恢复。这篇文章讲清两条关键路线，以及为什么 Snapshot 正在反超 Replay。

Agent 的真正难题，不在模型，在基础设施

演讲一开始，Eric Allam 就把矛头对准了一个很少被质疑的前提：我们默认 Agent 跑在“现代后端”上是合理的。但问题恰恰在这里。

过去 30 年，Web 后端从 CGI、PHP 到“request + DB = response”，核心思想只有一个——无状态（stateless）。请求进来、算一遍、返回结果、结束。共享尽量少，失败就重来。这套范式极其成功，也极其稳定。

但 Agent 完全不是这么一回事。

Agent 有循环（agent loop）、有工具调用、有多步副作用、会等待、会失败、还要继续。它更像一个“活着的进程”，而不是一次 HTTP 请求。Eric 在台上说得很直白：“an agent isn't like a transaction.”

当你试图用无状态系统去承载一个长期存在、持续决策的 Agent，本质上是在用螺丝刀敲钉子。模型能力再强，基础设施不变，Agent 也迟早会崩。

Replay 模型：我们最熟悉，也最容易踩坑的解法

行业里最早、也最自然的解法，就是 Replay。

思路很工程师：既然进程不能活太久，那我就把所有输入和副作用记录下来。一旦失败，就从头 replay，一步步重放，直到跑回失败点。这套模型在工作流引擎、durable execution 系统里非常成熟。

它确实解决了问题——至少在 Agent 还很“短”的时候。

但 Eric 点出了几个致命痛点：

异步副作用地狱：多步骤工具调用 + 外部系统，一旦顺序或幂等没处理好，replay 就会制造新 bug。
版本化噩梦：代码变了，历史 replay 该不该按旧逻辑跑？现实里这是一个极其棘手的问题。
上下文膨胀：每一次 LLM 调用、每一步工具结果都在累积，token 和状态一起爆炸。

Replay 很像数据库的 WAL：可靠，但越来越重。Agent 一旦开始做“有意义的长期工作”，它就开始吃力了。

Agent 真正需要的两样东西：上下文 + 执行

演讲中段，Eric 做了一个非常清晰、也非常有启发性的拆分：

Agent 的持久性，本质上是两件事。

第一，是上下文（context）。
- 对话历史
- 工具调用记录
- 决策轨迹

这部分非常适合 append-only log，便宜、可扩展、也好理解。

第二，是执行（execution）。
- Agent 正在跑什么代码
- 内存里有什么状态
- 打开了哪些文件、等待了哪些事件

问题恰恰出在这里。

Replay 试图用“重放历史”去重建执行状态，但这是一种间接且脆弱的方式。Eric 提出的反直觉问题是：

“如果我们根本不重建，而是直接把机器记住呢？”

这就引出了第二条路。

Snapshot：把 Agent 当成一台可以暂停的机器

Snapshot 模型的想法听起来很“老派”：

不 replay，不重算，直接把正在运行的机器状态整个快照下来。出问题了，就 restore 回去，继续跑。

Eric 甚至追溯了历史：1966 年的 IBM 大型机就有 snapshot/restore；2011 年虚拟化开始普及；到 2024 年，他们终于把这件事真正用在 Agent 上。

关键突破不在理念，而在工程细节：

使用 Firecracker microVM
默认机器内存巨大，但 snapshot 只保存被实际触碰的内存页
快照可以被压缩到 14MB 级别
恢复速度极快，支持 每分钟 15，000 次 VM 启动

结果是一个反常识的结论：

Stateful compute，反而可以跑在看起来“无状态”的基础设施之上。

当然，代价也存在：snapshot 整台机器并不便宜，版本迁移也需要重新设计。但相比 Replay 的复杂性，这是一种更贴近 Agent 本质的解法。

总结

这场演讲真正值钱的，不是 Replay vs Snapshot 的技术对比，而是一个视角转变：Agent 不是一次请求的延伸，而是一种全新的计算形态。

如果你正在做 Agent：当它开始需要等待、恢复、跨版本存活时，Replay 可能已经在偷偷拖慢你。如果你在做平台或基础设施：Snapshot 不只是性能优化，而是一次范式回归——让“长期运行的程序”重新成为一等公民。

接下来的几年，Agent 能不能从 Demo 走向生产，拼的可能不是模型，而是谁先接受一个事实：我们需要为“活着的 Agent”，重建后端。

关键词： AI Agent，大语言模型， Durable Execution， Replay 模型， Snapshot 模型

事实核查备注：需要核查的关键事实包括：演讲者 Eric Allam 的身份与所属项目；Replay 模型与 Snapshot 模型的定义是否与原视频一致；IBM 大型机 1966 年 snapshot 的历史表述；Firecracker microVM 的使用时间线；14MB 快照大小与每分钟 15，000 次 VM 启动的数据；视频发布时间 2026-05-10。

返回文章列表