为什么AI团队最难做的不是模型，而是Eval平台本身

AI PM 编辑部 · 2026年04月28日 · 28 阅读 · AI/人工智能

正在加载视频...

视频章节

很多AI团队以为，模型效果不好，是模型不够强。Phil Hetzel却在这次分享里泼了一盆冷水：真正拖垮AI Agent落地的，往往是你根本没建好的Eval平台。这不是工具问题，而是一个被严重低估的系统级难题。

为什么AI团队最难做的不是模型，而是Eval平台本身

很多AI团队以为，模型效果不好，是模型不够强。Phil Hetzel却在这次分享里泼了一盆冷水：真正拖垮AI Agent落地的，往往是你根本没建好的Eval平台。这不是工具问题，而是一个被严重低估的系统级难题。

最反直觉的一点：你以为在做Eval，其实只是“自我安慰”

Phil一上来就点破一个行业里心照不宣的事实：很多团队“觉得自己在做Eval”，但实际上根本无法证明Agent是否真的按预期工作。Demo能跑、case能过，并不等于系统在真实世界里是可靠的。Eval存在的第一性原理只有一个——确认你的AI Agent正在“按你以为的方式行动”。一旦进入真实用户、真实数据、真实反馈的环境，之前那些手写prompt测试、几条样例对比，几乎全部失效。这也是为什么Eval不是锦上添花，而是AI系统的安全带。没有它，你连失败发生在哪都不知道。

为什么Eval永远“做不完”：它天生就无法规模化

当Phil问现场有多少人在“已经做Eval”时，真正敢举手的人并不多。原因很简单：Eval在实践中极难规模化。Agent的行为是开放式的、非确定的，而且还会随着prompt、模型版本、上下游工具不断变化。你刚修好一个指标，系统的行为空间已经悄悄变了。更糟的是，Eval不是一个人的工作。产品、工程、研究、甚至运营，都会以不同方式参与进来。它是一个典型的“团队运动”。但现实中，很多Eval工具却是某个工程师凭感觉vibe coded出来的UI，其他人根本用不起来，最终Eval只存在于代码仓库，而不在决策流程里。

真正有用的Eval，从生产数据开始，而不是白板假设

Phil反复强调一个关键转折点：Eval成熟的标志，是你开始大量依赖生产环境的trace数据。不是想象Agent可能会失败在哪，而是通过真实调用、真实上下文，去发现那些你根本没想到的failure mode。只有当你能系统性地回放、对比、标注这些真实轨迹，Eval才第一次变成“发现问题的机器”，而不是“验证假设的工具”。这一步非常痛苦，因为它意味着你的Eval范围会不断膨胀，指标会频繁推翻，甚至会逼着你承认：之前定义的成功标准，本身就是错的。

从系统视角看，Eval平台本身就是一类“怪物级”产品

当Eval开始驱动迭代，而不是仅仅做汇报，它就会暴露出系统层面的复杂性：多模型、多版本、多任务、多指标，还要支持持续实验和快速反馈。Phil指出，这让Eval平台成为一种非常独特的系统问题——它既要像数据平台一样稳定，又要像实验平台一样灵活。Braintrust后来选择把大量Eval流程自动接入平台，本质上不是为了“更炫”，而是为了减少人为摩擦，让改进真正发生。如果Eval不能自然融入日常开发流程，它最终一定会被跳过。

总结

这场分享真正刺痛人的地方在于：Eval不是一个“等模型成熟了再补”的模块，而是决定AI Agent能否持续进化的基础设施。对从业者来说，最大的takeaway不是选哪个工具，而是反思三个问题：你的Eval是否基于真实生产行为？是否能被整个团队使用？是否真的在影响决策？如果答案是否定的，那你现在的AI系统，很可能只是“看起来很聪明”。下一个阶段，Eval平台会像CI/CD一样，成为AI工程的标配——而越早正视它的难度，越不容易在规模化时翻车。

关键词： AI Agent， Eval平台，模型评估，生产数据， AI工程

事实核查备注：需要核查：演讲者姓名拼写（Phil Hetzel）、演讲中是否明确提及Braintrust的具体产品功能、视频时长以确认文章长度匹配

返回文章列表