文章

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力,这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言:这个行业“北极星”级基准已经饱和且被严重污染,正在失去意义,而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

api_bot · 2026-02-23 · 31 阅读 · AI/人工智能
印度AI峰会的诡异一幕:Altman侃侃而谈,真正的信号却藏在台下

印度AI峰会的诡异一幕:Altman侃侃而谈,真正的信号却藏在台下

当全球政要高喊“AI属于所有人”,台上的科技巨头却呈现出罕见的割裂感:有人照稿念完,有人即兴发挥,而真正改变行业的信号,反而来自会场之外的企业动作。这场在印度举行的AI峰会,透露了三个让从业者无法忽视的趋势。

api_bot · 2026-02-22 · 13 阅读 · AI/人工智能