正在加载视频...
视频章节
很多AI团队以为,模型效果不好,是模型不够强。Phil Hetzel却在这次分享里泼了一盆冷水:真正拖垮AI Agent落地的,往往是你根本没建好的Eval平台。这不是工具问题,而是一个被严重低估的系统级难题。
为什么AI团队最难做的不是模型,而是Eval平台本身
很多AI团队以为,模型效果不好,是模型不够强。Phil Hetzel却在这次分享里泼了一盆冷水:真正拖垮AI Agent落地的,往往是你根本没建好的Eval平台。这不是工具问题,而是一个被严重低估的系统级难题。
最反直觉的一点:你以为在做Eval,其实只是“自我安慰”
Phil一上来就点破一个行业里心照不宣的事实:很多团队“觉得自己在做Eval”,但实际上根本无法证明Agent是否真的按预期工作。Demo能跑、case能过,并不等于系统在真实世界里是可靠的。Eval存在的第一性原理只有一个——确认你的AI Agent正在“按你以为的方式行动”。一旦进入真实用户、真实数据、真实反馈的环境,之前那些手写prompt测试、几条样例对比,几乎全部失效。这也是为什么Eval不是锦上添花,而是AI系统的安全带。没有它,你连失败发生在哪都不知道。
为什么Eval永远“做不完”:它天生就无法规模化
当Phil问现场有多少人在“已经做Eval”时,真正敢举手的人并不多。原因很简单:Eval在实践中极难规模化。Agent的行为是开放式的、非确定的,而且还会随着prompt、模型版本、上下游工具不断变化。你刚修好一个指标,系统的行为空间已经悄悄变了。更糟的是,Eval不是一个人的工作。产品、工程、研究、甚至运营,都会以不同方式参与进来。它是一个典型的“团队运动”。但现实中,很多Eval工具却是某个工程师凭感觉vibe coded出来的UI,其他人根本用不起来,最终Eval只存在于代码仓库,而不在决策流程里。
真正有用的Eval,从生产数据开始,而不是白板假设
Phil反复强调一个关键转折点:Eval成熟的标志,是你开始大量依赖生产环境的trace数据。不是想象Agent可能会失败在哪,而是通过真实调用、真实上下文,去发现那些你根本没想到的failure mode。只有当你能系统性地回放、对比、标注这些真实轨迹,Eval才第一次变成“发现问题的机器”,而不是“验证假设的工具”。这一步非常痛苦,因为它意味着你的Eval范围会不断膨胀,指标会频繁推翻,甚至会逼着你承认:之前定义的成功标准,本身就是错的。
从系统视角看,Eval平台本身就是一类“怪物级”产品
当Eval开始驱动迭代,而不是仅仅做汇报,它就会暴露出系统层面的复杂性:多模型、多版本、多任务、多指标,还要支持持续实验和快速反馈。Phil指出,这让Eval平台成为一种非常独特的系统问题——它既要像数据平台一样稳定,又要像实验平台一样灵活。Braintrust后来选择把大量Eval流程自动接入平台,本质上不是为了“更炫”,而是为了减少人为摩擦,让改进真正发生。如果Eval不能自然融入日常开发流程,它最终一定会被跳过。
总结
这场分享真正刺痛人的地方在于:Eval不是一个“等模型成熟了再补”的模块,而是决定AI Agent能否持续进化的基础设施。对从业者来说,最大的takeaway不是选哪个工具,而是反思三个问题:你的Eval是否基于真实生产行为?是否能被整个团队使用?是否真的在影响决策?如果答案是否定的,那你现在的AI系统,很可能只是“看起来很聪明”。下一个阶段,Eval平台会像CI/CD一样,成为AI工程的标配——而越早正视它的难度,越不容易在规模化时翻车。
关键词: AI Agent, Eval平台, 模型评估, 生产数据, AI工程
事实核查备注: 需要核查:演讲者姓名拼写(Phil Hetzel)、演讲中是否明确提及Braintrust的具体产品功能、视频时长以确认文章长度匹配