别再迷信平均分:Hamel用一张表讲清AI评测的真相

AI PM 编辑部 · 2025年09月28日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一篇把“AI评测为什么总让人失望”讲透的文章。Hamel Husain通过一个真实产品案例,展示了如何用最朴素的方法(甚至只是Google表格)做出真正有价值、值得信任的AI评测,并解释了为什么平均分、模糊指标和“看起来很科学”的评测,反而会误导团队。

别再迷信平均分:Hamel用一张表讲清AI评测的真相

这是一篇把“AI评测为什么总让人失望”讲透的文章。Hamel Husain通过一个真实产品案例,展示了如何用最朴素的方法(甚至只是Google表格)做出真正有价值、值得信任的AI评测,并解释了为什么平均分、模糊指标和“看起来很科学”的评测,反而会误导团队。

为什么大多数AI评测一开始就走偏了

这次对话一上来,Hamel就点破了一个行业里极少被认真讨论的问题:评测并不难,难的是大家根本没在看对的数据。他直言不讳地说,真正能产生“疯狂价值”的事情,其实只是“看数据、数清楚发生了什么”,但“这是每个人都会跳过的那一步”。

他举了一个极其常见、却极其危险的例子:平均分。当你看到模型评分从3.2提升到3.7时,“没有人真的知道这到底意味着什么”,更谈不上行动建议。产品经理往往只能模糊地感觉“好像在变好”,但根本说不清哪里变好、为什么变好。

Hamel给了一个几乎带着警告意味的金句:“如果你在评测里看到‘agreement(一致性)’这个词,你应该立刻停下来,问一句:我真的理解它吗?”原因很简单——一旦团队不信任评测结果,“他们甚至不会再信任你这个人,你就完了”。在他看来,评测的第一目标不是学术严谨,而是建立信任。

一个真实而混乱的产品:Nurture Boss

为了避免“玩具示例”的陷阱,Hamel选了一个真实客户作为贯穿全场的案例:Nurture Boss,一个AI驱动的物业管理助手。它负责回答租客问题、介绍房源、安排看房,场景复杂、错误频繁,但正因为“够乱”,才足够真实。

Hamel强调,他不喜欢过于干净的示例,因为那会掩盖现实问题。在这个产品中,他们直接从生产环境里抽取真实对话(trace),而不是重新设计测试用例。比如,一段用户询问“两居室是否有空房”的对话,最终却以系统卡住、对话被截断收场。

关键不在于立刻找根因。Hamel反复提醒:“重点不是现在就做完整的root cause analysis。”他们做的第一步,只是标注:这是一次失败,而且是用户视角下的失败。这个选择看似保守,却为后续所有评测设计定下了基调——从真实用户体验出发,而不是从模型能力出发。

人类标注、幻觉、以及一小时的震撼

接下来发生的一幕,几乎是整场视频最有冲击力的地方。Hamel和团队花了大约一个小时,对一百条左右的真实对话进行人工标注,只用最基础的分类:是否失败、失败类型是什么、是否存在幻觉(hallucination)。

所谓幻觉,在这里指的是模型编造了不存在的事实或房源信息。令人震惊的是,仅仅这一轮低成本的人工标注,就立刻暴露出大量“之前完全没意识到的严重错误”。Hamel坦言,这些问题如果只看自动化指标,是永远发现不了的。

更重要的是,他们没有急着引入复杂系统,而是把所有标注结果导出到电子表格,用最普通的分类、筛选和PivotTable做分析。正如Hamel所说,他故意用表格来演示,是为了证明“这个过程可以简单到近乎原始,但依然能产生巨大价值”。

别再迷信LLM裁判:评测也需要被评测

在谈到当前流行的LLM-as-a-Judge(用大模型当裁判)时,Hamel的态度非常务实。他并不反对使用LLM评测,但反复强调一句话:“你是可以衡量裁判本身的。”

具体做法是引入meta-evaluation(元评测):让人类标注作为基准,计算LLM评测的真阳性率、假阳性率,并画出混淆矩阵。当他们真的这么做时,结果“非常糟糕”,一些看起来合理的自动评分,在关键错误上几乎完全失效。

这也解释了他为什么讨厌单一分数和抽象指标。相比之下,二元判断(对/错)、清晰的失败分类,反而更有行动价值。Hamel给出的建议非常克制:在早期评测阶段,待在Google Sheet里,少量数据、少量指标、强理解,比任何“通用指标体系”都更重要。

总结

这场对话真正颠覆人的地方,并不是某个新工具或新指标,而是一种态度的转变:AI评测不是为了看起来专业,而是为了让团队敢于基于它做决定。Hamel用一个真实、笨拙却高效的过程证明,只要从真实用户对话出发,用人类能理解的方式标注和统计,你就已经超过了大多数团队。对每一个在做AI产品的人来说,这或许是最重要的一课:别急着复杂,先让评测值得被信任。


关键词: AI评测, LLM评估, 幻觉检测, 产品案例, 人工标注

事实核查备注: 视频嘉宾:Hamel Husain;主持/频道:Peter Yang;案例产品:Nurture Boss(AI物业管理助手);核心术语:trace、hallucination、LLM judge、meta-evaluation、confusion matrix;关键观点原话包括:平均分无意义、agreement需警惕、评测信任的重要性。