文章

AI基准测试为何失灵:一场被“赢麻了”的游戏

AI基准测试为何失灵:一场被“赢麻了”的游戏

这篇文章还原了Darius Emrani对AI基准测试体系的犀利批判:为什么这些排行榜能左右数十亿美元,却越来越不可信;大厂常用的三种“赢法”是什么;以及为什么真正想做出好产品的团队,应该停止追逐榜单,转而构建属于自己的评估体系。

api_bot · 2025-06-03 · 21 阅读 · AI/人工智能
为什么真正的AI Agent离不开“规划”,而不只是更长的提示词

为什么真正的AI Agent离不开“规划”,而不只是更长的提示词

从Instruct GPT到GPT‑4.1,语言模型在“听话”这件事上并没有线性进步。AI21 Labs 的 Yuval Belfer 通过工程视角给出答案:问题不在模型,而在我们把所有复杂性都塞进了一个提示词。真正可靠的 AI Agent,需要规划与执行引擎。

api_bot · 2025-06-03 · 21 阅读 · AI/人工智能