别再迷信自动评测:他们用GEPA把“LLM裁判”校准到能用

AI PM 编辑部 · 2026年04月09日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

很多团队都在用大模型给大模型打分,但结果往往不稳定、不可复现,甚至越优化越偏。Mahmoud Mabrouk 在这场实战型分享里直接开炮:问题不在模型,而在“裁判”。更关键的是,他给出了一套真的跑得通的解法。

别再迷信自动评测:他们用GEPA把“LLM裁判”校准到能用

很多团队都在用大模型给大模型打分,但结果往往不稳定、不可复现,甚至越优化越偏。Mahmoud Mabrouk 在这场实战型分享里直接开炮:问题不在模型,而在“裁判”。更关键的是,他给出了一套真的跑得通的解法。

最反直觉的一点:你以为模型在进步,其实是裁判在漂移

这场分享一上来就点破了一个行业“潜规则”:我们太快相信了 LLM as a Judge 的分数。很多团队在做评测时,只要换一批数据、换一次提示词,指标就会自己“变好”。听起来像进步,实际上很可能只是裁判标准在漂移。

Mahmoud 的核心观点很尖锐:不校准的 LLM 裁判,本质上是一个会随时间失真的仪表盘。应用在迭代、数据在累积、用户行为在变化,如果裁判不跟着被约束和优化,你看到的“提升”可能只是幻觉。这也是他反复强调“calibrated LLM judges”的原因——不是让模型更聪明,而是让评测更可信。

把“评测”当成模型来训练,是这套方法的关键转折

不同于常见的人工规则 + LLM 打分,这里有一个重要的思路转向:评测本身就是一个需要被训练和优化的系统

在实操中,Mahmoud 选择了 Towbench 作为数据集,用一个真实测试场景来演示流程。整个工作流被拆成清晰的四步:从任务定义、人工或半自动标注、到验证是否满足规则,再到把这些标注数据喂给评测器本身。

真正的“狠活”发生在后半段:他们不是微调业务模型,而是用 GEPA(视频中用于提示优化的算法)去反复优化“裁判提示词”。换句话说,这是在用系统化搜索,而不是拍脑袋改 prompt,让裁判学会如何更稳定地做判断。

GEPA 在干什么?不断试错,直到算力用完为止

如果只看名字,GEPA 听起来像又一个学术名词,但它的行为非常工程化:生成候选提示 → 在标注数据上评测 → 选择更优的 → 继续迭代。

Mahmoud 特别提醒的一点是:理解算法的工作方式,比盲目调参数重要得多。GEPA 的本质是受计算预算约束的搜索过程,它不会“顿悟”,而是靠大量对比慢慢逼近一个更稳的裁判。

他也很坦诚地指出现实限制:即便有不少库实现了类似算法,想要一次性得到“完美”的 LLM 裁判几乎不可能。你得到的不是终极答案,而是一个在当前数据和预算下,最不坏的近似。

从“天真裁判”到可用系统,提升真的有多大?

效果部分是这场分享最让人安心的地方,因为数字不夸张,也不玄学。

以一个最朴素的 naive judge 作为起点,在验证集上,优化后的评测器带来了大约 14% 的提升;在训练集上,准确率也提高了 9 个点。这不是 SOTA 级别的飞跃,但恰恰因此显得可信。

更重要的是,这些提升来自评测一致性的增强,而不是模型“投机取巧”。对于真正在线上跑系统的团队来说,这意味着你终于可以区分:是模型真的变好了,还是只是评测标准变松了。

总结

这场分享最大的价值,不在于某个具体算法,而在于一个态度转变:评测不是附属品,而是需要被工程化对待的一等公民。如果你正在用 LLM 做复杂决策、自动化流程或生成式应用,那么“谁来评判模型”这件事,迟早会成为瓶颈。

可执行的建议很明确:第一,尽早为你的评测器准备可回溯的标注数据;第二,把 prompt 优化从手工艺术升级为系统搜索;第三,定期审视评测是否在随业务漂移。未来真正拉开差距的,可能不是模型大小,而是谁的“裁判”更值得信任。


关键词: LLM as a Judge, GEPA, 提示工程, 模型评测, Towbench

事实核查备注: 需要核查:1)算法名称在视频中出现为 GEPA/GAPA 的具体拼写;2)Towbench 数据集的准确名称与用途;3)验证集提升约14%、训练集提升9%的具体上下文;4)视频发布时间为2026-04-09;5)演讲者 Mahmoud Mabrouk 的所属 Agenta AI。