AI自动化的真相：整份工作，只完成了2.5%

AI PM 编辑部 · 2025年11月03日 · 9 阅读 · AI/人工智能

计算机视觉 AI安全语音AI 通用人工智能 AI应用 AI Agent ChatGPT Gemini Pro OpenAI

正在加载视频...

视频章节

在裁员与替代的喧嚣中，一项基于真实外包项目的新研究给AI泼了冷水：最强AI代理完成整份工作的成功率仅2.5%。本文带你看清评测方法、失败原因与真正的行业启示。

AI自动化的真相：整份工作，只完成了2.5%

在裁员与替代的喧嚣中，一项基于真实外包项目的新研究给AI泼了冷水：最强AI代理完成整份工作的成功率仅2.5%。本文带你看清评测方法、失败原因与真正的行业启示。

为什么我们一直高估了AI的“工作能力”

这很重要，因为关于“AI是否会大规模取代人类工作”的讨论，往往建立在并不贴近现实的评测之上。演讲者一开场就点破问题：主流模型发布时附带的基准测试“高度学术化”，与真实工作场景脱节。这也是为什么人们渴望像Meter Scale这样的新指标，但即便如此，它们仍然停留在理论层面。

他举了一个关键例子：很多评测默认以50%或80%的成功率来衡量任务完成时间，但在真实商业环境中，“80%，更别说50%，根本不可能被客户接受”。正是在AI裁员叙事甚嚣尘上的当下，弄清楚AI到底能不能“完整地做一份工作”，而不是完成几个子任务，变得格外重要。这也为后文的Remote Labor Index（RLI）埋下了伏笔。

从GDP Val到RLI：把评测拉回经济现实

这一节的核心在于方法论的转变。演讲者回顾了OpenAI在9月底推出的GDP Val：从美国GDP贡献最高的九大行业中选取44个职业，拆解为1320个专业任务，并经过多轮专家审核，试图衡量“经济上有价值的真实任务”。他直言，当时自己“非常兴奋”，因为这是评测从抽象走向现实的一步。

但真正让他“坐直了身子”的，是Dan Hendrickx（AI安全中心主任）公布的Remote Labor Index。RLI的野心更大：直接测试AI自动化真实远程工作的能力。研究团队与358位Upwork资深自由职业者合作，平均每人有2300多小时工时、2.3万美元收入。他们提供真实完成过、客户付过钱的项目样本。最终，研究者筛选出240个高质量项目，覆盖23个类别，人类完成这些项目平均需要28.9小时，平均成本632美元。这些数字，让评测第一次牢牢扎根于真实交易。

刺眼的结果：最强AI，也只做到2.5%

结果之所以重要，是因为它直接击中了“AI整岗替代”的核心假设。RLI采用的是头对头评估：人类评审判断AI交付物是否“至少和人类一样好”，并且“合理客户会接受”。结论相当残酷：当前最先进的AI代理“几乎贴着地板”。

排名第一的Manis，自动化率仅2.5%。Gro 4和Sonet 4.5都是2.1%，GBT 5为1.7%，Chat GBT Agent是1.3%，Gemini 2.5 Pro只有0.8%。也就是说，在240个真实项目中，AI几乎从未能独立交付到可被接受的程度。这不是“完成了多少步骤”，而是“能否交付一整份工作”的硬标准。

AI到底败在了哪里？失败比成功更有信息量

理解失败原因，才能判断改进空间。45.6%的拒绝源于质量问题：任务 technically 完成了，但“不够专业”，比如幼稚的图像或机械的配音。35.7%是因为不完整，代理干脆没把活干完。17.6%栽在技术和文件问题上，生成了损坏或不可用的文件，14.8%则是内部逻辑不一致。

但演讲者并没有一棒子打死。他指出两个积极信号：第一，音频、图像、写作和数据检索等领域表现明显更好；第二，不完整率低于预期，“能把一份工作完整跑完，哪怕不够好，本身就是一个重要里程碑”。在ELO相对评分中，AI彼此之间在持续进步，虽然离人类基线仍然很远。

2.5%意味着什么？对裁员恐慌的冷思考

这一部分给出了视频最有价值的判断。RLI评测的不是“任务完成”，而是“完整工作流的全自动化”。作者明确表示，他们要的是full automation指标，而这与GDP Val并不冲突。演讲者提醒：全自动化并不总是优先目标，在Agentic Coding领域，提升人类效率的辅助式AI同样重要。

因此，有人认为这说明“末日论该降温了”，AI擅长的是具体任务，而非整份工作；也有人反驳，2.5%对通用AI来说已经不低，垂直领域可能更高。无论站哪一边，更关键的是：用真实世界的数据，替代政治化、情绪化的噪音。

总结

这期视频的价值，不在于一个刺眼的2.5%，而在于一种更诚实的测量方式。真实项目、真实客户、真实标准，让我们看清AI离“整岗替代”还有多远。对个人而言，这意味着短期内更应关注“人机协作”的杠杆；对行业而言，真正的进步来自可重复、可验证的现实评测，而不是情绪化的预言。

关键词： AI Agent，自动化率， Remote Labor Index，通用人工智能， AI应用

事实核查备注：视频来源：The AI Daily Brief；研究名称：Remote Labor Index（RLI）；相关评测：GDP Val（OpenAI）；关键人物：Dan Hendrickx（Center for AI Safety）；样本数量：358名Upwork自由职业者、240个项目；人类完成时间：平均28.9小时；平均成本：632美元；自动化率：Manis 2.5%，Gro 4/ Sonet 4.5 2.1%，GBT 5 1.7%，Chat GBT Agent 1.3%，Gemini 2.5 Pro 0.8%；失败原因比例：45.6%质量、35.7%不完整、17.6%技术问题、14.8%不一致。

返回文章列表