正在加载视频...
视频章节
在这期RedpointAI播客中,Mercor CEO围绕一个颠覆性判断展开:未来大量知识工作将被“评测(evals)”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见,帮助读者理解正在逼近的结构性转变。
当“评测”成为新工作:Mercor CEO谈AI如何重塑知识劳动
在这期RedpointAI播客中,Mercor CEO围绕一个颠覆性判断展开:未来大量知识工作将被“评测(evals)”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见,帮助读者理解正在逼近的结构性转变。
从“我觉得我对”到“用评测说话”:知识工作的底层偏见
为什么AI时代首先被挑战的,是人类对自己判断的自信?节目一开始,主持人就点出一个极具共鸣的现象:人类在“基于感觉(vibes)”做判断时,往往坚信自己是对的。Brandon Foody认为,这种偏见在知识工作中无处不在,而AI的价值恰恰在于系统化地对判断进行评测。
他强调,所谓“evals”,并不是简单的测试,而是用可重复、可比较的方式,衡量模型或代理在真实任务中的表现。正因为如此,评测正在成为新的“劳动单位”。在他看来,很多过去依赖资深经验、直觉和头衔的工作,都会被拆解为一系列可以被评估、对比、持续改进的任务。“人类太容易相信自己的直觉,而模型至少会把标准摊开在桌面上。”这也是他判断知识工作结构将发生变化的根本原因。
还在“早期局数”:AI推理与代理的加速时刻
如果你觉得AI已经发展得够快了,Foody的判断可能会让你重新校准预期。他在节目中多次提到,我们“仍然在很多领域的早期局数(early innings)”。尤其是在AI推理和多代理系统上,真正的爆发才刚开始。
Mercor当前大量工作正是围绕模型和代理的评测展开:不同模型在不同任务、不同上下文下的表现差异,远比参数规模更重要。他提到,市场正在从“模型能不能做”转向“模型在我的具体场景下做得怎么样”。这也是为什么评测需求迅速增长——它直接连接了技术能力与商业价值。
在这个过程中,一个有趣的转折是:评测本身正在变成一种高度专业化的工作,而不只是模型训练的附属品。Foody形容这种变化就像“浪潮正在靠近”,你已经能看到水位变化,只是大多数人还没意识到它会有多高。
招聘不会消失,但会被重新定义
AI会不会彻底取代招聘?这是节目中被直接抛出的问题。Foody的回答并不极端。他认为,有些判断“可能永远会由人来完成”,但前提是,这些判断真的无法被更好的信号替代。
在Mercor的实践中,他们发现,对候选人未来表现的预测,往往并不依赖传统简历上的光环,而是高度“项目和客户特定”。哪些信号有用,经常会让人意外。这也反过来推动他们用更细粒度的评测去理解:人在什么样的任务里表现好,模型在什么地方反而更稳定。
他特别指出,即便模型的推理过程不完全可解释,只要结果在评测中持续优于人类判断,市场最终还是会选择它。这不是对人的否定,而是对“结果负责”的一种进化。
数据标注与评测市场:人类角色的下一站
谈到数据标注,Foody没有回避一个现实:大量短期、合同制的标注工作,确实曾是推动行业快速扩张的“套利机会”。但他更关注的是,这种模式正在发生质变。
随着基础模型公司成为核心客户,需求不再只是“多一些数据”,而是“更能暴露模型弱点的数据”。这意味着,人类更多是在设计挑战、制造“绊脚石”,而不是机械地贴标签。正如他所说,人和模型之间正在形成一种新的分工关系:人负责找出模型哪里会犯错,模型则通过评测不断逼近更稳健的表现。
至于未来是否还需要人类参与评测和标注,他的态度很明确:需求不会消失,但会持续向更高认知密度、更贴近具体应用的方向迁移。
总结
这期对话的价值,不在于给出一个简单的“AI会取代什么工作”的答案,而在于提供了一种看待变化的框架:当评测成为核心生产力,知识工作、招聘和数据标注都会被重新拆解与定价。对个体而言,真正的机会在于理解这些评测背后的逻辑,并参与到更高价值的判断设计中,而不是固守旧有角色。
关键词: AI评测, 知识工作, AI推理, 招聘未来, 数据标注
事实核查备注: 视频来源:RedpointAI播客;嘉宾为Mercor CEO Brandon Foody(姓名基于视频上下文);核心概念包括AI evals(评测)、AI推理、数据标注、招聘预测;引用语如“early innings”“tidal wave coming”均来自视频口语表达,未涉及具体数字或未确认的技术细节。