OpenAI亲口承认：SWE-Bench Verified已被“污染”，编码评测走到拐点

AI PM 编辑部 · 2026年02月23日 · 30 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力，这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言：这个行业“北极星”级基准已经饱和且被严重污染，正在失去意义，而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

OpenAI亲口承认：SWE-Bench Verified已被“污染”，编码评测走到拐点

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力，这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言：这个行业“北极星”级基准已经饱和且被严重污染，正在失去意义，而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

一句话掀桌：最权威的编码基准，已经不再可信

在这期Latent Space访谈中，最“炸”的不是某个模型成绩，而是OpenAI Frontier Evals团队的直接表态：SWE-Bench Verified，这个过去一年被所有大模型实验室反复引用的编码基准，已经“effectively saturated and highly contaminated”。

饱和，意味着顶级模型在这个基准上的提升空间几乎被榨干；污染，意味着题目、解法或分布已经以各种形式进入了模型训练过程。结果就是：排行榜上那种0.1%、0.2%的微小领先，看起来很热闹，但“完全不具说服力”。

更关键的是，这不是外部研究者的质疑，而是基准的共同创建者之一——OpenAI自己——站出来说：它已经不再能衡量真实的编码能力进步。这个信号本身，就足够让整个AI从业圈警觉。

SWE-Bench Verified当初为什么重要，又是怎么被“用坏”的

要理解这次“弃用”，得先理解SWE-Bench Verified当初为什么能成为北极星。它并不是玩具题，而是来自真实GitHub仓库和真实issue：模型被丢进一个真实代码库，接到一个现实世界的问题，最后用测试是否通过来判定成功。

在2024年前后，这是极其稀缺的能力评测。相比刷LeetCode式的题目，它第一次让研究者看到：模型能不能像一个初级工程师那样，在复杂代码上下文中修Bug、补功能。

问题出在成功本身。这个基准被广泛采用、反复跑分、深度分析，随后不可避免地进入了训练、微调、提示工程和人类评估的反馈回路。Frontier Evals团队在内部审计中发现，在被调查的问题里，超过一半都存在不同形式的泄漏或捷径——模型并不是“理解并解决”，而是在命中熟悉模式。

当一个评测开始奖励“记忆”和“适配”，而不是能力本身，它的使命也就结束了。

真正棘手的不是污染，而是：我们已经测不到想测的东西了

访谈中一个反复出现的主题是：即便你清理干净一个基准，它也会很快再次失效。原因很简单——模型进步得太快，而评测设计本身是慢变量。

Frontier Evals团队明确表示，他们将停止继续报告SWE-Bench Verified成绩，并转向更新、更难、也更不“整齐”的评测（例如SuperBench Pro）。但他们也承认，这只是权宜之计。

更深层的问题在于：我们真正关心的能力，正在变得越来越难以量化。比如：模型在开放式任务中的策略选择、在复杂工程决策中的长期规划、以及在不完整规范下的取舍能力。这些都不是“跑一组测试”就能得到答案的。

正如他们所说，当前很多评测都只是代理指标（proxy）。它们投影了能力的一部分，但和“真实世界里的有用性”之间，正在拉开距离。

从编码到对齐：评测正在变成一门“不舒服的科学”

访谈后半段，话题自然延伸到了更宏观的评测哲学——包括GDP-style评估、复杂度、以及整体准备度框架（preparedness）。这些评测有一个共同特点：不再追求单一分数，而是接受模糊性。

这对行业来说其实是个反直觉的倒退。过去十年，我们习惯了清晰榜单、明确胜负；而现在，最重要的能力评估，反而需要更多人类审计、更强主观判断，以及对“不确定性”的容忍。

但这可能是不可避免的阶段。因为当模型开始接近真实工作流时，评测本身也必须更像真实世界——复杂、昂贵、难以自动化，也更难被营销部门简化成一句话。

总结

SWE-Bench Verified被“判退役”，并不是一个基准失败的故事，而是整个AI评测范式撞上天花板的信号。对从业者来说，真正的takeaway有三个：第一，不要再迷信单一榜单，尤其是已经被广泛使用的基准；第二，评测结果要结合设计动机和失效模式一起看；第三，未来真正有价值的能力提升，可能短期内“看不见”。

如果你在做模型、做Agent、或基于模型下注产品路线，现在就是重新思考“我们到底在优化什么”的好时机。下一个SWE-Bench不会再是一个简单分数，而是一套让人不太舒服、但更接近现实的评估体系。

关键词： SWE-Bench Verified， OpenAI， AI评测，编码基准， Frontier Evals

事实核查备注：需要核查：1）SWE-Bench Verified首次由OpenAI团队深度参与清理和发布的时间点（约2024年中后期）；2）Frontier Evals团队是否明确表示“停止报告”SWE-Bench Verified成绩；3）访谈中关于“超过一半问题被污染”的具体表述范围；4）SuperBench Pro是否作为明确替代基准被点名。

返回文章列表