当“评测”成为新工作：Mercor CEO谈AI如何重塑知识劳动

AI PM 编辑部 · 2025年06月04日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期RedpointAI播客中，Mercor CEO围绕一个颠覆性判断展开：未来大量知识工作将被“评测（evals）”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见，帮助读者理解正在逼近的结构性转变。

当“评测”成为新工作：Mercor CEO谈AI如何重塑知识劳动

在这期RedpointAI播客中，Mercor CEO围绕一个颠覆性判断展开：未来大量知识工作将被“评测（evals）”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见，帮助读者理解正在逼近的结构性转变。

从“我觉得我对”到“用评测说话”：知识工作的底层偏见

为什么AI时代首先被挑战的，是人类对自己判断的自信？节目一开始，主持人就点出一个极具共鸣的现象：人类在“基于感觉（vibes）”做判断时，往往坚信自己是对的。Brandon Foody认为，这种偏见在知识工作中无处不在，而AI的价值恰恰在于系统化地对判断进行评测。

他强调，所谓“evals”，并不是简单的测试，而是用可重复、可比较的方式，衡量模型或代理在真实任务中的表现。正因为如此，评测正在成为新的“劳动单位”。在他看来，很多过去依赖资深经验、直觉和头衔的工作，都会被拆解为一系列可以被评估、对比、持续改进的任务。“人类太容易相信自己的直觉，而模型至少会把标准摊开在桌面上。”这也是他判断知识工作结构将发生变化的根本原因。

还在“早期局数”：AI推理与代理的加速时刻

如果你觉得AI已经发展得够快了，Foody的判断可能会让你重新校准预期。他在节目中多次提到，我们“仍然在很多领域的早期局数（early innings）”。尤其是在AI推理和多代理系统上，真正的爆发才刚开始。

Mercor当前大量工作正是围绕模型和代理的评测展开：不同模型在不同任务、不同上下文下的表现差异，远比参数规模更重要。他提到，市场正在从“模型能不能做”转向“模型在我的具体场景下做得怎么样”。这也是为什么评测需求迅速增长——它直接连接了技术能力与商业价值。

在这个过程中，一个有趣的转折是：评测本身正在变成一种高度专业化的工作，而不只是模型训练的附属品。Foody形容这种变化就像“浪潮正在靠近”，你已经能看到水位变化，只是大多数人还没意识到它会有多高。

招聘不会消失，但会被重新定义

AI会不会彻底取代招聘？这是节目中被直接抛出的问题。Foody的回答并不极端。他认为，有些判断“可能永远会由人来完成”，但前提是，这些判断真的无法被更好的信号替代。

在Mercor的实践中，他们发现，对候选人未来表现的预测，往往并不依赖传统简历上的光环，而是高度“项目和客户特定”。哪些信号有用，经常会让人意外。这也反过来推动他们用更细粒度的评测去理解：人在什么样的任务里表现好，模型在什么地方反而更稳定。

他特别指出，即便模型的推理过程不完全可解释，只要结果在评测中持续优于人类判断，市场最终还是会选择它。这不是对人的否定，而是对“结果负责”的一种进化。

数据标注与评测市场：人类角色的下一站

谈到数据标注，Foody没有回避一个现实：大量短期、合同制的标注工作，确实曾是推动行业快速扩张的“套利机会”。但他更关注的是，这种模式正在发生质变。

随着基础模型公司成为核心客户，需求不再只是“多一些数据”，而是“更能暴露模型弱点的数据”。这意味着，人类更多是在设计挑战、制造“绊脚石”，而不是机械地贴标签。正如他所说，人和模型之间正在形成一种新的分工关系：人负责找出模型哪里会犯错，模型则通过评测不断逼近更稳健的表现。

至于未来是否还需要人类参与评测和标注，他的态度很明确：需求不会消失，但会持续向更高认知密度、更贴近具体应用的方向迁移。

总结

这期对话的价值，不在于给出一个简单的“AI会取代什么工作”的答案，而在于提供了一种看待变化的框架：当评测成为核心生产力，知识工作、招聘和数据标注都会被重新拆解与定价。对个体而言，真正的机会在于理解这些评测背后的逻辑，并参与到更高价值的判断设计中，而不是固守旧有角色。

关键词： AI评测，知识工作， AI推理，招聘未来，数据标注

事实核查备注：视频来源：RedpointAI播客；嘉宾为Mercor CEO Brandon Foody（姓名基于视频上下文）；核心概念包括AI evals（评测）、AI推理、数据标注、招聘预测；引用语如“early innings”“tidal wave coming”均来自视频口语表达，未涉及具体数字或未确认的技术细节。

返回文章列表