Anthropic 工程师直说真相：AI Agent 跑不久，不是模型不够强

AI PM 编辑部 · 2026年05月18日 · 72 阅读 · AI/人工智能

正在加载视频...

视频章节

为什么今天最强的 AI Agent，跑几个小时就“开始胡来”？Anthropic 两位一线工程师给出的答案，几乎颠覆了很多从业者的直觉：问题不在模型，而在我们构建 Agent 的方式。这场分享，第一次系统拆开了“长时间运行 Agent”真正的技术瓶颈。

为什么今天最强的 AI Agent，跑几个小时就“开始胡来”？Anthropic 两位一线工程师给出的答案，几乎颠覆了很多从业者的直觉：问题不在模型，而在我们构建 Agent 的方式。这场分享，第一次系统拆开了“长时间运行 Agent”真正的技术瓶颈。

如果你以为“更大的模型 + 更长的上下文 = 更能跑的 Agent”，那这场分享一开始就会让你警醒。Andrew Wilson 直接点破：过去一年模型能力飞涨，但 Agent 依然会在长时间运行中迷失目标、重复犯错，甚至悄悄偏离任务。

Anthropic 内部的结论是——问题不是模型不会做事，而是它们“不知道自己什么时候做错了”。当 Agent 连续运行数小时后，错误会被不断叠加、放大，而模型本身并没有稳定的自我校验机制。这也是为什么，短任务里看起来聪明的 Agent，一拉长时间就开始“失控”。

Andrew 把问题拆成了三个“大桶”，这也是整个演讲最有价值的结构。

第一，Agent 很难判断自己的输出质量。模型可以生成答案，但它并不天然知道“这个答案是不是已经偏离目标”。时间一长，微小偏差会滚成雪球。

第二，状态管理几乎是灾难级别的难题。长时间运行意味着大量中间决策、工具调用和上下文更新，如果没有清晰的状态边界，Agent 很容易在历史信息中迷路。

第三，也是最容易被忽略的：退出条件不清晰。很多 Agent 根本不知道“什么时候该停”，于是只能靠 token 用尽或人工打断。这不是智能，而是消耗。

这场分享反复出现一个词：harness。它不是模型，也不是提示词，而是包在 Agent 外层的一整套运行框架。

Ash 和 Andrew 展示了 Anthropic 过去一年里，这套 harness 是如何逐步演进的——也是 Claude Code 背后真正的“发动机”。核心思想很明确：不要指望模型自律，而是用系统设计来约束它。

包括：明确的循环结构、清晰的阶段划分、强制的自检步骤，以及最重要的——明确的 exit criteria。Agent 不是一直跑到“感觉完成”为止，而是跑到满足条件为止。这一点，看似简单，却是无数失败 Agent 项目的分水岭。

谈到 Sonnet 4.5，Anthropic 并没有炫耀“我们上下文有多长”，反而强调了一件反常识的事：上下文窗口的使用方式，比长度本身重要得多。

长时间运行的 Agent，如果把所有历史一股脑塞进上下文，只会加速混乱。Anthropic 的方向是：让 Agent 学会“什么该忘，什么该记”，并通过 harness 控制上下文的更新节奏。

这也解释了为什么单纯堆 token，解决不了长期一致性问题。上下文不是仓库，而是工作台。

在一个很容易被忽略的片段里，Andrew 提到 adversarial pressure——当 Agent 被放进真实环境，它会不断遭遇失败、冲突和不确定性。

他们展示的示例非常朴素：一个简单到不能再简单的 prompt，明确告诉 Agent“你要修复的就是这一行”。但正是这种极端清晰的约束，才让 Agent 在复杂环境中保持方向感。

这背后的潜台词是：高级 Agent 不是靠更复杂的 Prompt Engineering，而是靠更残酷、更现实的运行条件打磨出来的。

这场分享给从业者的最大提醒是：别再把“Agent 跑不久”简单归咎为模型不够强。真正的差距，正在从模型能力转向系统设计能力。

如果你在构建 Agent，现在就该问自己三个问题：它如何判断自己做得好不好？它的状态是如何被管理的？它到底什么时候该停？

未来真正拉开差距的，不是谁用上了最新模型，而是谁能设计出让模型“不犯傻”的运行框架。这，才是长时间运行 Agent 的真正门槛。

关键词： AI Agent， Anthropic， Claude Code，上下文窗口，提示工程

事实核查备注：需要核查：1）Sonnet 4.5 的具体定位与发布时间；2）Claude Code 是否正式对外发布及其描述；3）三大问题分类是否为演讲原话或总结性表述。