AI评测最大的问题不是模型不行,而是我们测错了方向

AI PM 编辑部 · 2026年05月25日 · 31 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在刷那些“谁又登顶榜单”的评测结果,这场来自 Google DeepMind 与 Kaggle 团队的演讲会让你不安:评测正在失效,而且失效得很快。更糟的是,我们正在用一小撮人的标准,决定所有 AI Agent 的未来。

AI评测最大的问题不是模型不行,而是我们测错了方向

如果你还在刷那些“谁又登顶榜单”的评测结果,这场来自 Google DeepMind 与 Kaggle 团队的演讲会让你不安:评测正在失效,而且失效得很快。更糟的是,我们正在用一小撮人的标准,决定所有 AI Agent 的未来。

最反直觉的真相:AI 不是变强了,而是评测先老了

演讲一开始,Nicholas Kang 就抛出一个让全场安静下来的判断:当前 AI 评测体系正在系统性失真。不是因为模型太快,而是评测本身“碎片化、去中心化,而且极易过期”。

今天的现实是:评测散落在论文、私有脚本、一次性榜单里;结果不可复现,过程不透明;更致命的是——评测设计者高度集中在少数背景相似的人群。这意味着什么?意味着模型被训练去“迎合评测”,而不是解决真实世界的问题。

一句话总结他们的批评:“我们在用昨天的问题,奖励今天最会刷题的模型。”

一个土耳其污水工程师,戳穿了评测圈的傲慢

接下来,全场最有记忆点的故事出现了。

Nicholas 讲到:并不是所有关键评测,都来自顶级实验室。一位土耳其的污水处理厂工程师,基于自己每天面对的真实系统约束,构建了一个极其“接地气”的评测基准。这个基准没人包装、没人营销,却精准击中了 AI 在复杂现实系统中的盲区。

这个故事背后的杀伤力在于:真正重要的评测问题,往往不在主流视野里。当评测权力只掌握在少数研究者手中,AI 能力的分布就会被“人为拉平”,而真实世界的复杂性被系统性忽略。

这也是他们反复强调“开放评测”的原因——不是为了公平,而是为了不让 AI 走偏。

Kaggle 给出的四条路:不是一个榜单,而是一整套生态

那解决方案是什么?他们没有再造一个榜单,而是直接拆掉“单一评测”的思路。

第一,Hackathon。不是为了炫技,而是用短周期、高多样性的任务,把评测权交还给社区。但问题也很现实:如何防作弊?如何保证结果可比?

第二,Agent Exams。这是他们最“严肃”的设计:标准化、可复现、可持续更新的 Agent 考试体系。不是一次性测试,而是像课程一样演进。他们甚至强调,这对 AI 安全同样关键——因为你终于能稳定地观察能力变化,而不是被噪声欺骗。

第三,Game Arena。Michael Aaron 直言这是他“最自私也最骄傲”的项目:通过 PvP 游戏对抗,避免静态任务被迅速饱和。但这带来新的挑战——匹配机制、统计显著性、以及成本控制。

第四,Benchmark 平台。一个社区驱动的基准集合,不追求永恒权威,而是承认模型会快速迭代,评测必须跟着动。

为什么 Agent 时代,评测比模型本身更危险

演讲后半段反复回到一个主题:在 Agent 时代,评测失真是安全风险

Agent 不只是回答问题,而是持续行动、规划、调用工具。一旦评测无法覆盖长期行为、资源消耗、策略退化等问题,我们就会“误以为”模型是安全的。

Michael 在讲 Game Arena 时提到一个细节:PvP 的意义不只是好玩,而是迫使 Agent 面对非平稳环境。现实世界从来不会配合你,而静态评测恰恰在奖励这种错觉。

他们的核心判断是:未来真正拉开模型差距的,不是参数量,而是你用什么方式在训练和评估它

总结

这场演讲真正值得 AI 从业者反复琢磨的,不是某个具体工具,而是一种态度转变:评测不是附属品,而是能力塑形器

如果你在做 Agent,至少该问自己三个问题:你的评测是不是来自单一视角?是否能长期复现?是否逼近真实世界的非理性与不稳定?

Kaggle 团队给出的信号很明确:下一个阶段的竞争,不在“谁的模型更聪明”,而在“谁更诚实地面对模型的局限”。评测,正在成为 AI 时代最被低估、也最危险的基础设施。


关键词: AI Agent, AI评测, AI安全, Kaggle, Benchmark

事实核查备注: 需要核查:1)演讲者姓名 Nicholas Kang、Michael Aaron 的拼写;2)Kaggle 在演讲中提出的四类解决方案名称;3)土耳其污水处理工程师案例的具体背景是否有更多细节;4)视频发布时间 2026-05-25。