别再迷信自动评测：他们用GEPA把“LLM裁判”校准到能用

AI PM 编辑部 · 2026年04月09日 · 65 阅读 · AI/人工智能

大语言模型提示工程模型训练

正在加载视频...

视频章节

很多团队都在用大模型给大模型打分，但结果往往不稳定、不可复现，甚至越优化越偏。Mahmoud Mabrouk 在这场实战型分享里直接开炮：问题不在模型，而在“裁判”。更关键的是，他给出了一套真的跑得通的解法。

别再迷信自动评测：他们用GEPA把“LLM裁判”校准到能用

很多团队都在用大模型给大模型打分，但结果往往不稳定、不可复现，甚至越优化越偏。Mahmoud Mabrouk 在这场实战型分享里直接开炮：问题不在模型，而在“裁判”。更关键的是，他给出了一套真的跑得通的解法。

最反直觉的一点：你以为模型在进步，其实是裁判在漂移

这场分享一上来就点破了一个行业“潜规则”：我们太快相信了 LLM as a Judge 的分数。很多团队在做评测时，只要换一批数据、换一次提示词，指标就会自己“变好”。听起来像进步，实际上很可能只是裁判标准在漂移。

Mahmoud 的核心观点很尖锐：不校准的 LLM 裁判，本质上是一个会随时间失真的仪表盘。应用在迭代、数据在累积、用户行为在变化，如果裁判不跟着被约束和优化，你看到的“提升”可能只是幻觉。这也是他反复强调“calibrated LLM judges”的原因——不是让模型更聪明，而是让评测更可信。

把“评测”当成模型来训练，是这套方法的关键转折

不同于常见的人工规则 + LLM 打分，这里有一个重要的思路转向：评测本身就是一个需要被训练和优化的系统。

在实操中，Mahmoud 选择了 Towbench 作为数据集，用一个真实测试场景来演示流程。整个工作流被拆成清晰的四步：从任务定义、人工或半自动标注、到验证是否满足规则，再到把这些标注数据喂给评测器本身。

真正的“狠活”发生在后半段：他们不是微调业务模型，而是用 GEPA（视频中用于提示优化的算法）去反复优化“裁判提示词”。换句话说，这是在用系统化搜索，而不是拍脑袋改 prompt，让裁判学会如何更稳定地做判断。

GEPA 在干什么？不断试错，直到算力用完为止

如果只看名字，GEPA 听起来像又一个学术名词，但它的行为非常工程化：生成候选提示 → 在标注数据上评测 → 选择更优的 → 继续迭代。

Mahmoud 特别提醒的一点是：理解算法的工作方式，比盲目调参数重要得多。GEPA 的本质是受计算预算约束的搜索过程，它不会“顿悟”，而是靠大量对比慢慢逼近一个更稳的裁判。

他也很坦诚地指出现实限制：即便有不少库实现了类似算法，想要一次性得到“完美”的 LLM 裁判几乎不可能。你得到的不是终极答案，而是一个在当前数据和预算下，最不坏的近似。

从“天真裁判”到可用系统，提升真的有多大？

效果部分是这场分享最让人安心的地方，因为数字不夸张，也不玄学。

以一个最朴素的 naive judge 作为起点，在验证集上，优化后的评测器带来了大约 14% 的提升；在训练集上，准确率也提高了 9 个点。这不是 SOTA 级别的飞跃，但恰恰因此显得可信。

更重要的是，这些提升来自评测一致性的增强，而不是模型“投机取巧”。对于真正在线上跑系统的团队来说，这意味着你终于可以区分：是模型真的变好了，还是只是评测标准变松了。

总结

这场分享最大的价值，不在于某个具体算法，而在于一个态度转变：评测不是附属品，而是需要被工程化对待的一等公民。如果你正在用 LLM 做复杂决策、自动化流程或生成式应用，那么“谁来评判模型”这件事，迟早会成为瓶颈。

可执行的建议很明确：第一，尽早为你的评测器准备可回溯的标注数据；第二，把 prompt 优化从手工艺术升级为系统搜索；第三，定期审视评测是否在随业务漂移。未来真正拉开差距的，可能不是模型大小，而是谁的“裁判”更值得信任。

关键词： LLM as a Judge， GEPA，提示工程，模型评测， Towbench

事实核查备注：需要核查：1）算法名称在视频中出现为 GEPA/GAPA 的具体拼写；2）Towbench 数据集的准确名称与用途；3）验证集提升约14%、训练集提升9%的具体上下文；4）视频发布时间为2026-04-09；5）演讲者 Mahmoud Mabrouk 的所属 Agenta AI。

返回文章列表