别再迷信平均分：Hamel用一张表讲清AI评测的真相

AI PM 编辑部 · 2025年09月28日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一篇把“AI评测为什么总让人失望”讲透的文章。Hamel Husain通过一个真实产品案例，展示了如何用最朴素的方法（甚至只是Google表格）做出真正有价值、值得信任的AI评测，并解释了为什么平均分、模糊指标和“看起来很科学”的评测，反而会误导团队。

别再迷信平均分：Hamel用一张表讲清AI评测的真相

这是一篇把“AI评测为什么总让人失望”讲透的文章。Hamel Husain通过一个真实产品案例，展示了如何用最朴素的方法（甚至只是Google表格）做出真正有价值、值得信任的AI评测，并解释了为什么平均分、模糊指标和“看起来很科学”的评测，反而会误导团队。

为什么大多数AI评测一开始就走偏了

这次对话一上来，Hamel就点破了一个行业里极少被认真讨论的问题：评测并不难，难的是大家根本没在看对的数据。他直言不讳地说，真正能产生“疯狂价值”的事情，其实只是“看数据、数清楚发生了什么”，但“这是每个人都会跳过的那一步”。

他举了一个极其常见、却极其危险的例子：平均分。当你看到模型评分从3.2提升到3.7时，“没有人真的知道这到底意味着什么”，更谈不上行动建议。产品经理往往只能模糊地感觉“好像在变好”，但根本说不清哪里变好、为什么变好。

Hamel给了一个几乎带着警告意味的金句：“如果你在评测里看到‘agreement（一致性）’这个词，你应该立刻停下来，问一句：我真的理解它吗？”原因很简单——一旦团队不信任评测结果，“他们甚至不会再信任你这个人，你就完了”。在他看来，评测的第一目标不是学术严谨，而是建立信任。

一个真实而混乱的产品：Nurture Boss

为了避免“玩具示例”的陷阱，Hamel选了一个真实客户作为贯穿全场的案例：Nurture Boss，一个AI驱动的物业管理助手。它负责回答租客问题、介绍房源、安排看房，场景复杂、错误频繁，但正因为“够乱”，才足够真实。

Hamel强调，他不喜欢过于干净的示例，因为那会掩盖现实问题。在这个产品中，他们直接从生产环境里抽取真实对话（trace），而不是重新设计测试用例。比如，一段用户询问“两居室是否有空房”的对话，最终却以系统卡住、对话被截断收场。

关键不在于立刻找根因。Hamel反复提醒：“重点不是现在就做完整的root cause analysis。”他们做的第一步，只是标注：这是一次失败，而且是用户视角下的失败。这个选择看似保守，却为后续所有评测设计定下了基调——从真实用户体验出发，而不是从模型能力出发。

人类标注、幻觉、以及一小时的震撼

接下来发生的一幕，几乎是整场视频最有冲击力的地方。Hamel和团队花了大约一个小时，对一百条左右的真实对话进行人工标注，只用最基础的分类：是否失败、失败类型是什么、是否存在幻觉（hallucination）。

所谓幻觉，在这里指的是模型编造了不存在的事实或房源信息。令人震惊的是，仅仅这一轮低成本的人工标注，就立刻暴露出大量“之前完全没意识到的严重错误”。Hamel坦言，这些问题如果只看自动化指标，是永远发现不了的。

更重要的是，他们没有急着引入复杂系统，而是把所有标注结果导出到电子表格，用最普通的分类、筛选和PivotTable做分析。正如Hamel所说，他故意用表格来演示，是为了证明“这个过程可以简单到近乎原始，但依然能产生巨大价值”。

别再迷信LLM裁判：评测也需要被评测

在谈到当前流行的LLM-as-a-Judge（用大模型当裁判）时，Hamel的态度非常务实。他并不反对使用LLM评测，但反复强调一句话：“你是可以衡量裁判本身的。”

具体做法是引入meta-evaluation（元评测）：让人类标注作为基准，计算LLM评测的真阳性率、假阳性率，并画出混淆矩阵。当他们真的这么做时，结果“非常糟糕”，一些看起来合理的自动评分，在关键错误上几乎完全失效。

这也解释了他为什么讨厌单一分数和抽象指标。相比之下，二元判断（对/错）、清晰的失败分类，反而更有行动价值。Hamel给出的建议非常克制：在早期评测阶段，待在Google Sheet里，少量数据、少量指标、强理解，比任何“通用指标体系”都更重要。

总结

这场对话真正颠覆人的地方，并不是某个新工具或新指标，而是一种态度的转变：AI评测不是为了看起来专业，而是为了让团队敢于基于它做决定。Hamel用一个真实、笨拙却高效的过程证明，只要从真实用户对话出发，用人类能理解的方式标注和统计，你就已经超过了大多数团队。对每一个在做AI产品的人来说，这或许是最重要的一课：别急着复杂，先让评测值得被信任。

关键词： AI评测， LLM评估，幻觉检测，产品案例，人工标注

事实核查备注：视频嘉宾：Hamel Husain；主持/频道：Peter Yang；案例产品：Nurture Boss（AI物业管理助手）；核心术语：trace、hallucination、LLM judge、meta-evaluation、confusion matrix；关键观点原话包括：平均分无意义、agreement需警惕、评测信任的重要性。

返回文章列表