AI并不是突然变聪明的:METR用一套冷静指标拆穿“能力爆炸”幻觉

AI PM 编辑部 · 2026年02月27日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人以为AI的风险来自某个“突然觉醒”的时刻,但Joel Becker在这期Latent Space里反复强调:真正危险的,是我们正在系统性低估一种缓慢却指数级上升的能力曲线。METR不是在预测科幻,而是在量化我们已经看不清的现实。

AI并不是突然变聪明的:METR用一套冷静指标拆穿“能力爆炸”幻觉

很多人以为AI的风险来自某个“突然觉醒”的时刻,但Joel Becker在这期Latent Space里反复强调:真正危险的,是我们正在系统性低估一种缓慢却指数级上升的能力曲线。METR不是在预测科幻,而是在量化我们已经看不清的现实。

真正反直觉的地方:AI风险不是来自失控,而是来自“被高估的可控性”

一上来,Joel Becker就点破了一个行业里很少被直说的事实:讨论AI安全时,大多数人其实搞错了问题。不是“模型会不会突然失控”,而是“当模型能力已经很强时,我们是否真的理解它会在真实世界里做什么”。

这正是METR(Model Evaluation & Threat Research)的出发点。前一半ME,关注模型“能做什么”;后一半TR,关注模型“在给定激励和环境下,可能真的会去做什么”。这两件事长期被混在一起讨论,结果是:能力评估乐观,风险判断却极度模糊。

Joel说得很直接:如果你只测能力,却不把它映射到具体威胁模型上,那你得到的安全感,很可能是假的。

评测不是刷榜:METR为什么刻意避开“真实世界任务”

聊到ME部分时,一个很容易被误解的点出现了:为什么METR的任务看起来并不“像真实工作”?

答案恰恰相反。Joel解释,他们刻意选择的是“经济上有价值、但结构清晰”的任务,尤其是与通用自主性相关的任务。如果任务太开放、太混乱,你根本无法判断失败是能力不够,还是环境噪声太大。

从基础任务,到需要人类数百小时完成的HCOS任务,再到AR Bench这种接近前沿机器学习研究的挑战,METR关心的不是模型能不能完成某个demo,而是:它完成任务所需的“人类时间”在如何变化。

这也引出了一个关键纠偏:时间轴不是“模型能连续工作多久”,而是“它能解决多难的问题”,用人类完成这些问题所需的时间来衡量。

Opus 4.5的“大跳跃”,并不等于能力不连续

在谈到近期模型(如Opus 4.5)时,Joel承认直觉上确实像是一次大幅提升。但他非常谨慎地补了一句:这并不自动意味着能力是“不连续”的。

这句话的分量在于,它直接戳中了当前AI讨论中最火的争议之一——能力爆炸到底是突然发生,还是由多个能力逐步融合而成?

METR的观察更偏向后者:很多看似“突然出现”的能力,其实是评测方式终于捕捉到了它们。换句话说,不是模型昨天不会,今天突然会了,而是我们昨天根本没量到。

这也解释了为什么METR要不断重做旧研究。Joel提到,如今的研究设计比过去难得多:并发效应、选择偏差、模型更新速度,都在让“可重复性”变成一项高难度工程。

生产力并不会线性兑现:10倍工程师,换不来10倍产出

一个意外但极其现实的观察来自组织层面。Joel指出,即便模型让工程师效率提升10倍,大多数公司也无法推出10倍的产品。

原因很简单:组织的瓶颈不在个人,而在流程、决策、市场消化能力。这意味着,即使AI能力继续指数级上升,社会层面的反馈可能是非线性的、滞后的。

但这并不意味着风险变小。相反,当研发自动化逐步成形、能力开始自我叠加时,真正的变量不再是单次模型升级,而是整个改进循环是否被自动化。

这也是METR持续研究算力约束、算法进步与时间预期的原因:不是为了预测某一年出现AGI,而是判断在什么条件下,改进速度会失去人类的调节能力。

为什么基准测试正在失效,下一代评估必须更“脏”

在最后的讨论中,Joel坦言:传统benchmark已经越来越难反映真实能力上限。

一方面,模型会被脚手架(scaffolding)和提示工程推到极限,另一方面,这种“上限测试”并不等于模型在现实任务中的稳定表现。AI Village、开放式目标、完整交互记录(transcripts)作为数据,都是METR正在关注的新方向。

核心问题只有一个:我们是在测“模型理论上能做到什么”,还是在测“它在真实激励下会做什么”?

METR显然站在后者。

总结

如果你是AI从业者,这期访谈真正值得带走的不是某个时间预测,而是一种看待能力进展的视角:不要被“突然变聪明”的叙事牵着走,而要盯紧评测方式本身。模型能力是否连续,往往取决于我们是否有足够好的尺子。未来几年,真正拉开差距的,可能不是谁的模型更大,而是谁更早意识到:风险不是发生在失控的那一刻,而是发生在我们以为自己还在控制的时候。


关键词: AI安全, 模型评测, METR, 能力爆炸, 基准测试

事实核查备注: 需要核查:METR全称与职责表述;Opus 4.5的具体定位与时间;HCOS与AR Bench的正式定义;AI Village相关评测形式;访谈发布时间与视频时长