Anthropic最新研究揭露真相:AI Agent并不是更“放飞”,而是被人类重新驯化

AI PM 编辑部 · 2026年02月19日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

我们以为AI Agent的未来是“全自动”,但Anthropic的一份新研究却给了行业一记反转:真正决定Agent能走多远的,不只是模型能力,而是人类如何使用、信任和打断它。这篇文章讲清楚一个正在发生、却被严重低估的变化。

Anthropic最新研究揭露真相:AI Agent并不是更“放飞”,而是被人类重新驯化

我们以为AI Agent的未来是“全自动”,但Anthropic的一份新研究却给了行业一记反转:真正决定Agent能走多远的,不只是模型能力,而是人类如何使用、信任和打断它。这篇文章讲清楚一个正在发生、却被严重低估的变化。

最反直觉的发现:Agent并没有被“用到极限”

如果你只看主流讨论,会以为AI Agent的核心问题是“模型还不够强”。Anthropic这篇《Measuring AI Agent Autonomy in Practice》却给出了完全不同的结论:现实中,Agent被赋予的自主性,远远低于它们实际上能够承受的水平。

在基准测试世界里,像Meter这种指标关注的是“模型能独立完成多长的人类级任务”。但Anthropic指出,这种设定几乎假设了一个真空环境:没有人类插手、没有真实后果、也没有上下文变动。而现实世界恰恰相反——人类随时会介入、修正、补充信息,Agent也会主动停下来确认方向。

这意味着一个关键反差:我们不是因为Agent不够好才不敢放权,而是因为真实工作本身就需要人和Agent不断拉扯。自主性不是开关,而是一种被协商出来的状态。

Claude Code:第一个真正“有市场”的Agent长什么样

Anthropic选择Claude Code作为研究重点,本身就很说明问题。它并不只是一个写代码的工具,而更像是一个“带着代码能力的通用Agent”。这也是为什么很多人认为,Claude Code可能是第一个真正达到产品市场契合度(PMF)的Agent形态。

研究方法也很务实:一方面分析公共API中单次工具调用的数据,看到的是广度;另一方面深入Claude Code的完整工作流,看到的是连续行为和人机互动。代价是明显的——你要么看到“碎片化但多样”的真实世界,要么看到“完整但偏科”的使用场景。

最有意思的是时间维度。Anthropic用“turn duration”(一次不被人类打断的连续运行时长)来估算自主性。Claude Code的中位数只有45秒,于是他们直接看99.9%的长尾。从2025年10月到2026年1月,这个长尾从25分钟拉长到45分钟,随后又回落到40分钟左右。

原因并不是模型退化,而是用户结构变了:假期后项目类型变化,加上用户规模翻倍,新手涌入,直接重塑了Agent的使用方式。

新手 vs 老手:真正的差距不是信任,而是“怎么打断”

研究里一个非常“人性化”的发现是,新用户和老用户对Agent的态度截然不同。

新用户只有约20%的时间会开启完全自动批准,而老用户接近40%。乍一看像是“老用户更信任AI”,但下一条数据立刻打脸:老用户其实更频繁地打断Claude。

区别不在于信不信,而在于会不会用。新手不知道什么时候该插手,干脆全关或全开;老手则把Agent当成一个能力很强、但需要被管理的同事:在关键节点介入,在方向模糊时纠偏。

更反直觉的是,随着模型能力提升,人类干预确实在下降,但并不是因为人类“消失了”,而是因为互动质量变高了。Claude会在任务复杂度上升时主动请求澄清,甚至比人类更早暂停,给出多种方案。这种行为不是自主性不足,而是对人类偏好的适配。

最大信号:Agent的下一个爆发点不在工程师

很多人还停留在“Agent = 写代码”的阶段,但Anthropic的数据已经显示出明显拐点:虽然软件工程仍占约一半的工具调用,但超过50%的使用场景已经在工程之外。

后台流程自动化、市场营销、销售、财务,这些过去被认为“太杂、太碎、不适合自动化”的领域,正在成为Agent的真实练兵场。原因很简单:这些工作对100%成功率的容忍度更高,更适合人机协作,而不是完全无人值守。

这也解释了为什么Anthropic在结论中强调“capability overhang”——能力已经在那里,但使用方式还没跟上。真正的瓶颈,不是模型参数,而是我们是否设计出了更好的交互方式,让非工程师也能安全、持续地放权。

总结

Anthropic这项研究真正重要的地方,不在于它测了多少分钟,而在于它重定义了“自主性”。Agent不是越少人类越高级,而是在人类—模型协作中找到稳定区间。

对从业者来说,三个直接takeaway:第一,别只盯着模型能力,盯着用户怎么打断它;第二,Agent产品的竞争力,很快会体现在交互设计而不是推理分数;第三,如果你还只在工程团队里找Agent机会,可能已经慢半拍了。

一个值得带走的问题是:当Agent能连续工作几小时已成常态时,我们准备好把哪些决策真正交给它?


关键词: AI Agent, Claude Code, Anthropic, AI应用, 人机协作

事实核查备注: 需要核查:1)Claude Code被称为“第一个达到PMF的Agent”是否为评论性判断;2)99.9th percentile运行时长从25分钟到45分钟再到40分钟的具体时间范围;3)新用户20% vs 老用户40%全自动批准比例的原始统计口径。