AI Agent最容易翻车的不是模型，而是你没做这套 Evals

AI PM 编辑部 · 2026年05月14日 · 26 阅读 · AI/人工智能

正在加载视频...

视频章节

Laurie Voss 在这场演讲里抛出一个让很多工程师不舒服的事实：真正决定 AI Agent 能不能上线的，从来不是模型有多强，而是你有没有一套“能发现失败”的评估体系。这不是学术 talk，而是一条从 demo 到 production 的血路。

AI Agent最容易翻车的不是模型，而是你没做这套 Evals

Laurie Voss 在这场演讲里抛出一个让很多工程师不舒服的事实：真正决定 AI Agent 能不能上线的，从来不是模型有多强，而是你有没有一套“能发现失败”的评估体系。这不是学术 talk，而是一条从 demo 到 production 的血路。

最反直觉的一点：Eval 不是为了证明你做对了

演讲一开始，Laurie Voss 就把很多人的认知拧了个 180 度。她说，Eval 并不是用来“证明模型很强”，而是用来“尽早发现它会怎么失败”。

很多团队在做 Agent 时，默认逻辑是：先把能力堆上去，再看看效果。Eval 被当成最后一道形式化流程，甚至是写给老板看的 KPI。但在真实系统里，Eval 的真正作用恰恰相反——它是用来不断暴露问题的。

她在定义 Eval 时非常克制：不是火箭科学，也不是复杂统计，本质上就是“你能不能系统性地判断一次输出是好还是坏”。一旦你接受这个定义，Eval 就从“学术包袱”变成了“工程必需品”。

能力评测、回归测试、人类判断，其实缺一不可

Laurie 把 Eval 明确拆成几类：能力型 Eval、回归型 Eval，以及人类参与的评估。很多团队只做其中一种，结果系统一上线就开始漂。

能力 Eval 解决的是“它现在能不能做这件事”；回归 Eval 解决的是“我改了代码，它有没有悄悄变差”；而人类评注解决的是“那些模型自己永远解释不清的灰色地带”。

她强调，一个“真的能用”的 Eval 套件，一定是三者同时存在的。更关键的一句话是：任何使用 LLM 的应用，最终都会走到这一步。你今天觉得是大厂才需要的复杂流程，明天就会成为你系统稳定性的底线。

Agent 的 Eval，比普通 LLM 应用难一个数量级

当话题进入 AI Agent，难度立刻上升。Laurie 用了一个非常形象的说法：你以为在 eval 一个模型，其实是“LLM 一层套一层”。

Agent 有规划、有工具调用、有中间推理步骤，每一步都可能成功，但最终结果依然是错的。这意味着你不能只看最终输出，而必须看 trace，看每一次决策是怎么发生的。

她现场展示了在 Phoenix Cloud 里捕获 agent trace 的过程：每一个调用、每一次中间结果，都会成为之后写 Eval 的素材。Eval 不再是单点判断，而是一层层叠加的判断体系——就像她说的，stacking your eval layers。

没有数据怎么办？合成数据不是权宜之计，而是策略

一个特别“接地气”的问题被点出来：在你还没上线、还没用户的时候，Eval 用什么数据？

Laurie 的答案非常直接：先看你现有的 trace，没有就用合成数据。她并没有把 synthetic data 描绘成完美方案，而是明确说——这是 next best bet。

关键不在于数据是否“真实”，而在于你是否能通过这些数据，持续构建失败案例。她有一句非常值得反复咀嚼的话：今天生产环境里的失败，会变成明天的测试用例。这意味着 Eval 体系是会随着系统一起“学习”的。

真正的完整闭环：不是写完 Eval 就结束

在演讲最后，Laurie 把整个流程压缩成一个闭环：instrument、trace、eval、human annotate。

很多团队卡在“写完 Eval 就算完成”，但她反复强调，人类标注并不是落后的做法，而是 Agent 时代不可替代的一环。Eval 本身也在进化，而你只能通过持续的人类反馈，让系统知道什么是真正的失败。

她给出的最终建议也非常工程化：从小开始。不要一上来就试图覆盖所有场景，先让你的 Eval 能真实反映一个问题，然后再扩展。

总结

这场演讲最重要的启发是：AI Agent 的竞争力，正在从“谁的模型更强”转向“谁更早、更系统地发现失败”。Eval 不再是锦上添花，而是能不能上线、敢不敢迭代的基础设施。如果你正在做 Agent，今天就该问自己三个问题：我现在能看到多少失败？这些失败会不会变成测试？下一个版本会不会悄悄变差？真正成熟的团队，答案都写在 Eval 里。

关键词： AI Agent， LLM Eval， Agent评估， Phoenix，大语言模型

事实核查备注：需要核查：演讲者姓名拼写（Laurie Voss）、使用的工具名称是否为 Arize Phoenix / Phoenix Cloud、视频发布时间（2026-05-14）、演讲中对 Eval 分类的原始表述。

返回文章列表