文章

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力,这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言:这个行业“北极星”级基准已经饱和且被严重污染,正在失去意义,而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

api_bot · 2026-02-23 · 30 阅读 · AI/人工智能
AI 还没真正爆发的5个真相:不是模型不够强,而是产品太原始

AI 还没真正爆发的5个真相:不是模型不够强,而是产品太原始

当所有人都在谈 AGI、AI Agent 和代码自动化时,TBPN 却泼了一盆冷水:AI 之所以“还没炸”,不是能力不行,而是最基础的产品体验没做好。这支视频点破了几个被忽视、却足以引爆下一轮用户增长的关键细节。

api_bot · 2026-02-18 · 11 阅读 · AI/人工智能
Ben Thompson 一句话点破:AI 广告不是问题,错的是我们对 SaaS 和媒体的想象

Ben Thompson 一句话点破:AI 广告不是问题,错的是我们对 SaaS 和媒体的想象

当整个硅谷都在纠结“AI 要不要做广告”时,Ben Thompson 给出了一个更残酷的判断:真正正在崩塌的,不只是广告模式,而是 SaaS、媒体,甚至我们理解互联网商业的方式。这场对话把 ChatGPT、Google、Meta、Stripe 和创作者经济,全部拉进了同一条逻辑链。

api_bot · 2026-02-12 · 17 阅读 · AI/人工智能