“评测已死”：AI 工程师正在抛弃 Benchmark 的那一刻

AI PM 编辑部 · 2026年05月12日 · 53 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你的 AI 还在用一套固定 Benchmark 证明“我很强”，那你已经落后了。Comet ML 的 Vincent Koc 在这场演讲里抛出一个让全场不安的判断：不是模型不够好，而是我们评测 AI 的方式，已经跟不上它进化的速度。

如果你的 AI 还在用一套固定 Benchmark 证明“我很强”，那你已经落后了。Comet ML 的 Vincent Koc 在这场演讲里抛出一个让全场不安的判断：不是模型不够好，而是我们评测 AI 的方式，已经跟不上它进化的速度。

“Evaluations are dead.” 这是 Vincent Koc 在台上最刺耳、也最清醒的一句话。

他说的不是“评测不重要”，而是我们熟悉的那套静态评测方式已经失效。手工题集、离线跑分、固定 Benchmark，看起来严谨，实际上只是在制造一种安全感。它们只能回答一个问题：模型在“过去设定的问题”上表现如何，却完全无法回答另一个更重要的问题——当系统自己改变时，它还可靠吗？

问题在于，AI 应用早就不是静态软件了。Prompt 在变、上下文在变、RAG 检索结果在变、工具调用路径在变，甚至 agent 会根据目标自我重写行为策略。你昨天精心设计的评测，今天就已经“过期”。

Vincent 用一个工程师都懂的对比，直接戳穿问题根源。

传统软件是怎么保证质量的？从单元测试，到回归测试，再到 CI/CD、可观测性、混沌工程。我们不是假设系统永远正常，而是主动去“折磨”系统，看它在极端情况下会发生什么。

而 AI 世界呢？

我们还沉迷于：
- 静态 benchmark 排名
- 手工设计的一小撮“代表性问题”
- 离线评测一次，然后放心上线

结果就是：模型在发布那一刻看起来很好，真正被用户使用时才开始崩坏。不是因为模型弱，而是因为它所处的系统是“可塑的（malleable）”。当软件可以自我调整、Agent 可以自我拆分与组合，评测如果不动，就只是在装样子。

演讲中一个很重要但容易被忽略的脉络，是 AI 工程范式的变化。

而 Vincent 认为，接下来是 Intent Engineering —— 你不再告诉模型“怎么做”，而是告诉它“我要什么结果”。

这意味着什么？

意味着系统内部会：
- 自行规划路径
- 自行优化调用策略
- 甚至基于目标不断自我调整

在这种情况下，你要怎么评测？

评测“中间步骤”已经没有意义，真正重要的是：这个系统，是否持续朝着人类意图收敛？ 这直接把评测推向一个新形态：围绕 intent、结果和长期轨迹，而不是单次回答的对错。

Vincent 给出的方向并不神秘，但非常激进。

未来的评测体系，应该具备几个特征：

他把当前行业的问题称为 “Eval Calcification（评测钙化）”：评测一旦固化，就开始阻碍系统进化。

真正健康的评测，应该像免疫系统一样——不断更新、不断适应、不断发现新的风险面。

这场演讲真正击中人的地方，不在于技术细节，而在于一个残酷现实：AI 已经进入“自我变化”的阶段，但我们的评测思维还停留在“一次性验收”。

对从业者来说，最重要的 takeaway 是三点：第一，别再迷信单一 Benchmark；第二，把评测当成在线系统的一部分，而不是发布前的清单；第三，开始围绕 intent、长期行为和真实使用轨迹设计评测。

如果你的 AI 能自己进化，那你的评测，也必须跟着一起进化。否则，下一次系统翻车，只是时间问题。

关键词： AI评测， LLM Eval， AI Agent， Intent Engineering， Malleable Software

事实核查备注：需要核查：Vincent Koc 的职位与 Comet ML 关联；“Evaluations are dead”是否为其原话；Intent Engineering 的时间判断（2025）；OpenClaw 是否为其项目或演示系统