“评测已死”:AI 工程师正在抛弃 Benchmark 的那一刻

AI PM 编辑部 · 2026年05月12日 · 53 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你的 AI 还在用一套固定 Benchmark 证明“我很强”,那你已经落后了。Comet ML 的 Vincent Koc 在这场演讲里抛出一个让全场不安的判断:不是模型不够好,而是我们评测 AI 的方式,已经跟不上它进化的速度。

“评测已死”:AI 工程师正在抛弃 Benchmark 的那一刻

如果你的 AI 还在用一套固定 Benchmark 证明“我很强”,那你已经落后了。Comet ML 的 Vincent Koc 在这场演讲里抛出一个让全场不安的判断:不是模型不够好,而是我们评测 AI 的方式,已经跟不上它进化的速度。

一句话把全行业点燃:Evaluations are dead

“Evaluations are dead.” 这是 Vincent Koc 在台上最刺耳、也最清醒的一句话。

他说的不是“评测不重要”,而是我们熟悉的那套静态评测方式已经失效。手工题集、离线跑分、固定 Benchmark,看起来严谨,实际上只是在制造一种安全感。它们只能回答一个问题:模型在“过去设定的问题”上表现如何,却完全无法回答另一个更重要的问题——当系统自己改变时,它还可靠吗?

问题在于,AI 应用早就不是静态软件了。Prompt 在变、上下文在变、RAG 检索结果在变、工具调用路径在变,甚至 agent 会根据目标自我重写行为策略。你昨天精心设计的评测,今天就已经“过期”。

软件工程早就进化了,AI 评测却卡在原地

Vincent 用一个工程师都懂的对比,直接戳穿问题根源。

传统软件是怎么保证质量的?从单元测试,到回归测试,再到 CI/CD、可观测性、混沌工程。我们不是假设系统永远正常,而是主动去“折磨”系统,看它在极端情况下会发生什么。

而 AI 世界呢?

我们还沉迷于:
- 静态 benchmark 排名
- 手工设计的一小撮“代表性问题”
- 离线评测一次,然后放心上线

结果就是:模型在发布那一刻看起来很好,真正被用户使用时才开始崩坏。不是因为模型弱,而是因为它所处的系统是“可塑的(malleable)”。当软件可以自我调整、Agent 可以自我拆分与组合,评测如果不动,就只是在装样子。

从 Prompt Engineering 到 Intent Engineering,评测被彻底逼到墙角

演讲中一个很重要但容易被忽略的脉络,是 AI 工程范式的变化。

  • 2023 年,我们还在卷 Prompt Engineering
  • 后来是 Context Engineering:RAG、搜索、工具调用
  • 再往后,是 Agent:拆任务、调工具、跑流程

而 Vincent 认为,接下来是 Intent Engineering —— 你不再告诉模型“怎么做”,而是告诉它“我要什么结果”。

这意味着什么?

意味着系统内部会:
- 自行规划路径
- 自行优化调用策略
- 甚至基于目标不断自我调整

在这种情况下,你要怎么评测?

评测“中间步骤”已经没有意义,真正重要的是:这个系统,是否持续朝着人类意图收敛? 这直接把评测推向一个新形态:围绕 intent、结果和长期轨迹,而不是单次回答的对错。

新的答案:Always-on、可自我演化的评测系统

Vincent 给出的方向并不神秘,但非常激进。

未来的评测体系,应该具备几个特征:

  • 在线、持续运行:不是上线前评一次,而是永远在评
  • 从真实使用中生成:从 trace 中自动生成评测样本
  • 围绕意图而非问题:定义“成功的终态”,而不是标准答案
  • 与系统形成闭环:telemetry 在回路中,评测结果反过来影响系统行为

他把当前行业的问题称为 “Eval Calcification(评测钙化)”:评测一旦固化,就开始阻碍系统进化。

真正健康的评测,应该像免疫系统一样——不断更新、不断适应、不断发现新的风险面。

总结

这场演讲真正击中人的地方,不在于技术细节,而在于一个残酷现实:AI 已经进入“自我变化”的阶段,但我们的评测思维还停留在“一次性验收”。

对从业者来说,最重要的 takeaway 是三点:第一,别再迷信单一 Benchmark;第二,把评测当成在线系统的一部分,而不是发布前的清单;第三,开始围绕 intent、长期行为和真实使用轨迹设计评测。

如果你的 AI 能自己进化,那你的评测,也必须跟着一起进化。否则,下一次系统翻车,只是时间问题。


关键词: AI评测, LLM Eval, AI Agent, Intent Engineering, Malleable Software

事实核查备注: 需要核查:Vincent Koc 的职位与 Comet ML 关联;“Evaluations are dead”是否为其原话;Intent Engineering 的时间判断(2025);OpenClaw 是否为其项目或演示系统