OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

AI PM 编辑部 · 2026年02月23日 · 30 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力,这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言:这个行业“北极星”级基准已经饱和且被严重污染,正在失去意义,而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力,这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言:这个行业“北极星”级基准已经饱和且被严重污染,正在失去意义,而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

一句话掀桌:最权威的编码基准,已经不再可信

在这期Latent Space访谈中,最“炸”的不是某个模型成绩,而是OpenAI Frontier Evals团队的直接表态:SWE-Bench Verified,这个过去一年被所有大模型实验室反复引用的编码基准,已经“effectively saturated and highly contaminated”。

饱和,意味着顶级模型在这个基准上的提升空间几乎被榨干;污染,意味着题目、解法或分布已经以各种形式进入了模型训练过程。结果就是:排行榜上那种0.1%、0.2%的微小领先,看起来很热闹,但“完全不具说服力”。

更关键的是,这不是外部研究者的质疑,而是基准的共同创建者之一——OpenAI自己——站出来说:它已经不再能衡量真实的编码能力进步。这个信号本身,就足够让整个AI从业圈警觉。

SWE-Bench Verified当初为什么重要,又是怎么被“用坏”的

要理解这次“弃用”,得先理解SWE-Bench Verified当初为什么能成为北极星。它并不是玩具题,而是来自真实GitHub仓库和真实issue:模型被丢进一个真实代码库,接到一个现实世界的问题,最后用测试是否通过来判定成功。

在2024年前后,这是极其稀缺的能力评测。相比刷LeetCode式的题目,它第一次让研究者看到:模型能不能像一个初级工程师那样,在复杂代码上下文中修Bug、补功能。

问题出在成功本身。这个基准被广泛采用、反复跑分、深度分析,随后不可避免地进入了训练、微调、提示工程和人类评估的反馈回路。Frontier Evals团队在内部审计中发现,在被调查的问题里,超过一半都存在不同形式的泄漏或捷径——模型并不是“理解并解决”,而是在命中熟悉模式。

当一个评测开始奖励“记忆”和“适配”,而不是能力本身,它的使命也就结束了。

真正棘手的不是污染,而是:我们已经测不到想测的东西了

访谈中一个反复出现的主题是:即便你清理干净一个基准,它也会很快再次失效。原因很简单——模型进步得太快,而评测设计本身是慢变量。

Frontier Evals团队明确表示,他们将停止继续报告SWE-Bench Verified成绩,并转向更新、更难、也更不“整齐”的评测(例如SuperBench Pro)。但他们也承认,这只是权宜之计。

更深层的问题在于:我们真正关心的能力,正在变得越来越难以量化。比如:模型在开放式任务中的策略选择、在复杂工程决策中的长期规划、以及在不完整规范下的取舍能力。这些都不是“跑一组测试”就能得到答案的。

正如他们所说,当前很多评测都只是代理指标(proxy)。它们投影了能力的一部分,但和“真实世界里的有用性”之间,正在拉开距离。

从编码到对齐:评测正在变成一门“不舒服的科学”

访谈后半段,话题自然延伸到了更宏观的评测哲学——包括GDP-style评估、复杂度、以及整体准备度框架(preparedness)。这些评测有一个共同特点:不再追求单一分数,而是接受模糊性。

这对行业来说其实是个反直觉的倒退。过去十年,我们习惯了清晰榜单、明确胜负;而现在,最重要的能力评估,反而需要更多人类审计、更强主观判断,以及对“不确定性”的容忍。

但这可能是不可避免的阶段。因为当模型开始接近真实工作流时,评测本身也必须更像真实世界——复杂、昂贵、难以自动化,也更难被营销部门简化成一句话。

总结

SWE-Bench Verified被“判退役”,并不是一个基准失败的故事,而是整个AI评测范式撞上天花板的信号。对从业者来说,真正的takeaway有三个:第一,不要再迷信单一榜单,尤其是已经被广泛使用的基准;第二,评测结果要结合设计动机和失效模式一起看;第三,未来真正有价值的能力提升,可能短期内“看不见”。

如果你在做模型、做Agent、或基于模型下注产品路线,现在就是重新思考“我们到底在优化什么”的好时机。下一个SWE-Bench不会再是一个简单分数,而是一套让人不太舒服、但更接近现实的评估体系。


关键词: SWE-Bench Verified, OpenAI, AI评测, 编码基准, Frontier Evals

事实核查备注: 需要核查:1)SWE-Bench Verified首次由OpenAI团队深度参与清理和发布的时间点(约2024年中后期);2)Frontier Evals团队是否明确表示“停止报告”SWE-Bench Verified成绩;3)访谈中关于“超过一半问题被污染”的具体表述范围;4)SuperBench Pro是否作为明确替代基准被点名。