AI评测最大的问题不是模型不行，而是我们测错了方向

AI PM 编辑部 · 2026年05月25日 · 31 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在刷那些“谁又登顶榜单”的评测结果，这场来自 Google DeepMind 与 Kaggle 团队的演讲会让你不安：评测正在失效，而且失效得很快。更糟的是，我们正在用一小撮人的标准，决定所有 AI Agent 的未来。

如果你还在刷那些“谁又登顶榜单”的评测结果，这场来自 Google DeepMind 与 Kaggle 团队的演讲会让你不安：评测正在失效，而且失效得很快。更糟的是，我们正在用一小撮人的标准，决定所有 AI Agent 的未来。

演讲一开始，Nicholas Kang 就抛出一个让全场安静下来的判断：当前 AI 评测体系正在系统性失真。不是因为模型太快，而是评测本身“碎片化、去中心化，而且极易过期”。

今天的现实是：评测散落在论文、私有脚本、一次性榜单里；结果不可复现，过程不透明；更致命的是——评测设计者高度集中在少数背景相似的人群。这意味着什么？意味着模型被训练去“迎合评测”，而不是解决真实世界的问题。

一句话总结他们的批评：“我们在用昨天的问题，奖励今天最会刷题的模型。”

接下来，全场最有记忆点的故事出现了。

Nicholas 讲到：并不是所有关键评测，都来自顶级实验室。一位土耳其的污水处理厂工程师，基于自己每天面对的真实系统约束，构建了一个极其“接地气”的评测基准。这个基准没人包装、没人营销，却精准击中了 AI 在复杂现实系统中的盲区。

这个故事背后的杀伤力在于：真正重要的评测问题，往往不在主流视野里。当评测权力只掌握在少数研究者手中，AI 能力的分布就会被“人为拉平”，而真实世界的复杂性被系统性忽略。

这也是他们反复强调“开放评测”的原因——不是为了公平，而是为了不让 AI 走偏。

那解决方案是什么？他们没有再造一个榜单，而是直接拆掉“单一评测”的思路。

第一，Hackathon。不是为了炫技，而是用短周期、高多样性的任务，把评测权交还给社区。但问题也很现实：如何防作弊？如何保证结果可比？

第二，Agent Exams。这是他们最“严肃”的设计：标准化、可复现、可持续更新的 Agent 考试体系。不是一次性测试，而是像课程一样演进。他们甚至强调，这对 AI 安全同样关键——因为你终于能稳定地观察能力变化，而不是被噪声欺骗。

第三，Game Arena。Michael Aaron 直言这是他“最自私也最骄傲”的项目：通过 PvP 游戏对抗，避免静态任务被迅速饱和。但这带来新的挑战——匹配机制、统计显著性、以及成本控制。

第四，Benchmark 平台。一个社区驱动的基准集合，不追求永恒权威，而是承认模型会快速迭代，评测必须跟着动。

演讲后半段反复回到一个主题：在 Agent 时代，评测失真是安全风险。

Agent 不只是回答问题，而是持续行动、规划、调用工具。一旦评测无法覆盖长期行为、资源消耗、策略退化等问题，我们就会“误以为”模型是安全的。

Michael 在讲 Game Arena 时提到一个细节：PvP 的意义不只是好玩，而是迫使 Agent 面对非平稳环境。现实世界从来不会配合你，而静态评测恰恰在奖励这种错觉。

他们的核心判断是：未来真正拉开模型差距的，不是参数量，而是你用什么方式在训练和评估它。

这场演讲真正值得 AI 从业者反复琢磨的，不是某个具体工具，而是一种态度转变：评测不是附属品，而是能力塑形器。

如果你在做 Agent，至少该问自己三个问题：你的评测是不是来自单一视角？是否能长期复现？是否逼近真实世界的非理性与不稳定？

Kaggle 团队给出的信号很明确：下一个阶段的竞争，不在“谁的模型更聪明”，而在“谁更诚实地面对模型的局限”。评测，正在成为 AI 时代最被低估、也最危险的基础设施。

关键词： AI Agent， AI评测， AI安全， Kaggle， Benchmark

事实核查备注：需要核查：1）演讲者姓名 Nicholas Kang、Michael Aaron 的拼写；2）Kaggle 在演讲中提出的四类解决方案名称；3）土耳其污水处理工程师案例的具体背景是否有更多细节；4）视频发布时间 2026-05-25。