2025年定义PM价值的AI核心技能:真正懂Evals

AI PM 编辑部 · 2025年01月12日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这期对话中,Aman Khan从一线实践出发,解释了为什么“Evals”正在成为AI产品经理最关键的能力之一。它不仅是技术指标,更是一种逼迫PM真正站在用户视角、与黑箱模型共处并快速迭代的工作方式。

2025年定义PM价值的AI核心技能:真正懂Evals

这期对话中,Aman Khan从一线实践出发,解释了为什么“Evals”正在成为AI产品经理最关键的能力之一。它不仅是技术指标,更是一种逼迫PM真正站在用户视角、与黑箱模型共处并快速迭代的工作方式。

为什么Evals正在重塑AI产品经理的角色

在这期访谈一开始,Aman Khan就抛出了一个对PM极具冲击力的观点:在AI产品里,Evals(评估体系)不是“锦上添花”,而是工作的起点。他直言,“evals actually force you to get into the shoes of your user… when you're first getting started”。之所以重要,是因为大模型不像传统功能那样可预测,PM如果不通过系统化评估,就只能凭感觉做决策。

这里的关键转折在于:Evals并不是单纯给模型打分,而是一种迫使团队定义“什么是好结果”的过程。Aman提到,很多人在刚接触AI工具时,会被模型的表现迷惑,但一旦进入真实用户场景,就会发现问题层出不穷。Evals让PM不得不提前思考用户期望、失败边界以及可接受的误差。

这也是他反复强调的基础能力——不是写PRD,而是建立评估视角。没有Evals,PM很容易在“模型看起来还不错”的错觉中迷失方向。

与“黑箱模型”共处:不确定性才是常态

在访谈中,Aman用一个非常真实的比喻描述大模型:“these models are like a black box”。这并不是抱怨,而是一种工作前提。PM无法像传统系统那样完全理解内部机制,只能通过输入、输出和评估结果来判断系统是否在变好。

正因为是黑箱,Evals的重要性被进一步放大。它是PM少数能握在手里的“仪表盘”。Aman指出,如果没有持续、结构化的评估,团队很难知道一次改prompt、换模型或加工具到底有没有价值。

这里有一个容易被忽略的洞见:接受不确定性,而不是试图消除它。Aman在谈到这一点时选择“pause”,强调这是很多团队绕不开却又不愿正视的问题。AI产品的成熟,不来自一次完美设计,而来自在不确定中持续校准方向。

从定性到定量:Evals真正开始发挥作用的地方

当话题深入,主持人直接追问:“well what exactly is an eval… qualitatively and quantitatively”。Aman的回答很明确:两者缺一不可。定性评估帮助团队理解输出是否“有用”“合理”,而定量评估则让改进是否有效变得可追踪。

他提到一个关键分界点:“that's really where eval start”。也就是说,当团队开始把主观感受转化为可重复、可比较的标准时,Evals才真正成立。不同系统的评估方式差异很大,没有万能指标,唯一的共性是必须贴合具体产品目标。

这对PM的挑战在于速度。Aman反复强调,你“just have to be able to iterate very quickly”。Evals不是一次性工程,而是伴随产品演进不断调整的机制。慢一步,就会被模型和需求的变化甩在后面。

AI让个人交付更容易,但也更考验判断力

在后半段讨论中,Aman谈到一个明显变化:AI工具让个人“easier to ship stuff with AI yourself”。这意味着更少的流程、更快的实验,也更高的自由度。但反过来,对PM判断力的要求更高。

他提到,有些人把AI工具神话,仿佛它们能自动解决一切问题,“people were just saying that to feel better”。现实是,工具降低了门槛,却没有替代思考。尤其在多Agent、复杂编排逐渐出现的情况下,PM更像是在“orchestrating these agents as employees”。

这种变化直接指向未来趋势:谁能设计好Evals,谁就能驾驭复杂系统。否则,AI只会放大混乱,而不是创造价值。

总结

这期对话给AI产品经理的核心启发非常清晰:2025年真正拉开差距的,不是会不会用模型,而是会不会做Evals。它要求PM直面不确定性、站在用户视角定义“好坏”,并通过快速迭代持续校准方向。在黑箱成为常态的时代,评估能力本身,就是新的产品基本功。


关键词: Evals, AI产品经理, 大模型, 黑箱模型, AI工具

事实核查备注: 人物:Aman Khan(视频嘉宾,来自Arize);核心概念:Evals(评估体系)、黑箱模型(black box)、定性与定量评估、Agent编排;引用原话包括“evals actually force you to get into the shoes of your user”“these models are like a black box”“just have to be able to iterate very quickly”。