2025年定义PM价值的AI核心技能：真正懂Evals

AI PM 编辑部 · 2025年01月12日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这期对话中，Aman Khan从一线实践出发，解释了为什么“Evals”正在成为AI产品经理最关键的能力之一。它不仅是技术指标，更是一种逼迫PM真正站在用户视角、与黑箱模型共处并快速迭代的工作方式。

2025年定义PM价值的AI核心技能：真正懂Evals

这期对话中，Aman Khan从一线实践出发，解释了为什么“Evals”正在成为AI产品经理最关键的能力之一。它不仅是技术指标，更是一种逼迫PM真正站在用户视角、与黑箱模型共处并快速迭代的工作方式。

为什么Evals正在重塑AI产品经理的角色

在这期访谈一开始，Aman Khan就抛出了一个对PM极具冲击力的观点：在AI产品里，Evals（评估体系）不是“锦上添花”，而是工作的起点。他直言，“evals actually force you to get into the shoes of your user… when you're first getting started”。之所以重要，是因为大模型不像传统功能那样可预测，PM如果不通过系统化评估，就只能凭感觉做决策。

这里的关键转折在于：Evals并不是单纯给模型打分，而是一种迫使团队定义“什么是好结果”的过程。Aman提到，很多人在刚接触AI工具时，会被模型的表现迷惑，但一旦进入真实用户场景，就会发现问题层出不穷。Evals让PM不得不提前思考用户期望、失败边界以及可接受的误差。

这也是他反复强调的基础能力——不是写PRD，而是建立评估视角。没有Evals，PM很容易在“模型看起来还不错”的错觉中迷失方向。

与“黑箱模型”共处：不确定性才是常态

在访谈中，Aman用一个非常真实的比喻描述大模型：“these models are like a black box”。这并不是抱怨，而是一种工作前提。PM无法像传统系统那样完全理解内部机制，只能通过输入、输出和评估结果来判断系统是否在变好。

正因为是黑箱，Evals的重要性被进一步放大。它是PM少数能握在手里的“仪表盘”。Aman指出，如果没有持续、结构化的评估，团队很难知道一次改prompt、换模型或加工具到底有没有价值。

这里有一个容易被忽略的洞见：接受不确定性，而不是试图消除它。Aman在谈到这一点时选择“pause”，强调这是很多团队绕不开却又不愿正视的问题。AI产品的成熟，不来自一次完美设计，而来自在不确定中持续校准方向。

从定性到定量：Evals真正开始发挥作用的地方

当话题深入，主持人直接追问：“well what exactly is an eval… qualitatively and quantitatively”。Aman的回答很明确：两者缺一不可。定性评估帮助团队理解输出是否“有用”“合理”，而定量评估则让改进是否有效变得可追踪。

他提到一个关键分界点：“that's really where eval start”。也就是说，当团队开始把主观感受转化为可重复、可比较的标准时，Evals才真正成立。不同系统的评估方式差异很大，没有万能指标，唯一的共性是必须贴合具体产品目标。

这对PM的挑战在于速度。Aman反复强调，你“just have to be able to iterate very quickly”。Evals不是一次性工程，而是伴随产品演进不断调整的机制。慢一步，就会被模型和需求的变化甩在后面。

AI让个人交付更容易，但也更考验判断力

在后半段讨论中，Aman谈到一个明显变化：AI工具让个人“easier to ship stuff with AI yourself”。这意味着更少的流程、更快的实验，也更高的自由度。但反过来，对PM判断力的要求更高。

他提到，有些人把AI工具神话，仿佛它们能自动解决一切问题，“people were just saying that to feel better”。现实是，工具降低了门槛，却没有替代思考。尤其在多Agent、复杂编排逐渐出现的情况下，PM更像是在“orchestrating these agents as employees”。

这种变化直接指向未来趋势：谁能设计好Evals，谁就能驾驭复杂系统。否则，AI只会放大混乱，而不是创造价值。

总结

这期对话给AI产品经理的核心启发非常清晰：2025年真正拉开差距的，不是会不会用模型，而是会不会做Evals。它要求PM直面不确定性、站在用户视角定义“好坏”，并通过快速迭代持续校准方向。在黑箱成为常态的时代，评估能力本身，就是新的产品基本功。

关键词： Evals， AI产品经理，大模型，黑箱模型， AI工具

事实核查备注：人物：Aman Khan（视频嘉宾，来自Arize）；核心概念：Evals（评估体系）、黑箱模型（black box）、定性与定量评估、Agent编排；引用原话包括“evals actually force you to get into the shoes of your user”“these models are like a black box”“just have to be able to iterate very quickly”。

返回文章列表