50分钟讲清AI评测：从人工标注到LLM裁判的真实路径

AI PM 编辑部 · 2025年08月24日 · 12 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一堂面向初学者却不止于入门的AI评测课程。视频通过一个“并不性感但极其关键”的实操示例，讲清楚为什么AI eval正在成为核心基础设施，以及如何从人工标注数据集一步步过渡到“LLM as a judge”的评测体系。

50分钟讲清AI评测：从人工标注到LLM裁判的真实路径

这是一堂面向初学者却不止于入门的AI评测课程。视频通过一个“并不性感但极其关键”的实操示例，讲清楚为什么AI eval正在成为核心基础设施，以及如何从人工标注数据集一步步过渡到“LLM as a judge”的评测体系。

为什么AI评测突然成了CPOS们反复强调的事

这一切的起点，其实并不来自研究论文，而是来自一线公司的现实压力。视频一开始，Aman Khan就提到：“The CPOS of these companies are telling you eval are really important。”这句话的潜台词是——当模型能力快速提升、产品不断迭代时，团队已经很难靠直觉判断系统是否真的在变好。

这里的重要转折在于：AI评测（AI evaluations）不再是研究人员的“加分项”，而是产品能否稳定演进的底座能力。Aman并没有急着给定义，而是先做了一个快速回顾，提醒观众：我们之所以混乱，是因为评测类型太多、路径太杂，而多数团队甚至还没形成最基础的共识。

这也是本视频的独特价值之一——它不是从“什么是评测指标”讲起，而是先回答一个更现实的问题：如果你不做评测，会发生什么？答案很简单，你无法知道一次prompt修改、一次模型升级，究竟是在“变好”，还是只是在“看起来不一样”。

从“那AI eval到底是什么”说起：别急着复杂化

在第二个关键节点，Aman直接抛出了初学者最常见的问题：“So like um what are AI evals exactly？”他的处理方式非常克制——没有公式，没有指标大全，而是强调一种“先建立直觉”的理解方式。

他指出，大多数人一上来就纠结于自动化评测、benchmark或复杂框架，反而忽略了最基础的一点：评测的本质，是对输出质量的系统性判断。这也是为什么在后续demo中，他们会不断回到一个看似“原始”的做法——让人来判断。

当Peter Yang回应“Yeah， I totally agree… we’ll see soon from the demo”，其实已经点出了这堂课的节奏：不是争论概念，而是通过一个极简示例，把评测这件事“走一遍”。这种教学设计本身，就是对AI评测的一种隐性示范——评测不需要一开始就完美，但一定要可执行。

真正的转折点：人工在环与“黄金数据集”

视频中最具体、也最有操作感的部分，来自“我们现在开始变得非常实际”的那一刻。Aman明确表示，在做任何eval之前，第一步不是工具，而是prompt。“So before we start doing the evals， we have to write a prompt.”

这一轮prompt评审中，Peter给出的反馈是：“That looks great… overall it seems good。”但Aman马上补了一句关键判断：“it’s like initial first pass… that’s like having a human in the loop.”这里的“human in the loop”（人工在环），并不是过渡方案，而是整个体系的地基。

紧接着，他点出了本视频最重要的一句话之一：“All you’re doing here is basically building out a golden data set… based on that you’re going to start building your LLM as a judge。”所谓“黄金数据集”，指的是由人类明确标注、可反复使用的参考答案集合。它并不华丽，却决定了后续所有自动化评测是否有对齐目标。

不性感，但决定上限：让LLM学会“像人一样评判”

当话题进入“LLM as a judge”，Aman刻意降低了期待值。他坦言：“this stuff is not super sexy… creating a self-improving agent。”这并不是否定价值，而是提醒观众：真正有价值的系统，往往建立在重复、枯燥但可靠的流程之上。

在有了人工标注数据集之后，团队开始尝试更新prompt、增加评判标准，并不断检查LLM的判断是否“align with your human label”。这里的AI对齐（alignment），并非哲学命题，而是一个非常工程化的问题：模型给出的评分，是否和人类在同一组样本上的判断一致。

Aman也强调，这只是一个“toy example”，但正是这种简化示例，展示了一条可复制的路径：先人工、再半自动、最后才是规模化自动评测。至于“是否真的有人把产品prompt和评测prompt完全打通”，他坦率地表示自己“haven’t really seen that being pulled off”，这份诚实本身，就是经验的体现。

总结

这堂50分钟的课程，并没有给出一个炫目的评测框架，却提供了一条真实可行的成长路径：从人工判断开始，构建黄金数据集，再逐步引入LLM作为裁判。它最大的启发在于——AI评测不是一次性工程，而是一种持续的产品能力。如果你正在构建AI应用，这种“不性感”的基础工作，可能正是你与长期成功之间最短的距离。

关键词： AI评测， LLM as a Judge，人工在环，提示工程， AI对齐

事实核查备注：视频标题：Complete Beginner's Course on AI Evaluations in 50 Minutes （2025）；演讲者提及观点来自Aman Khan；频道/主持：Peter Yang；关键术语：AI evals、human in the loop、golden data set、LLM as a judge、AI alignment；引用语句均来自提供的内容片段原意。

返回文章列表