AI自动化的真相:整份工作,只完成了2.5%
正在加载视频...
视频章节
在裁员与替代的喧嚣中,一项基于真实外包项目的新研究给AI泼了冷水:最强AI代理完成整份工作的成功率仅2.5%。本文带你看清评测方法、失败原因与真正的行业启示。
AI自动化的真相:整份工作,只完成了2.5%
在裁员与替代的喧嚣中,一项基于真实外包项目的新研究给AI泼了冷水:最强AI代理完成整份工作的成功率仅2.5%。本文带你看清评测方法、失败原因与真正的行业启示。
为什么我们一直高估了AI的“工作能力”
这很重要,因为关于“AI是否会大规模取代人类工作”的讨论,往往建立在并不贴近现实的评测之上。演讲者一开场就点破问题:主流模型发布时附带的基准测试“高度学术化”,与真实工作场景脱节。这也是为什么人们渴望像Meter Scale这样的新指标,但即便如此,它们仍然停留在理论层面。
他举了一个关键例子:很多评测默认以50%或80%的成功率来衡量任务完成时间,但在真实商业环境中,“80%,更别说50%,根本不可能被客户接受”。正是在AI裁员叙事甚嚣尘上的当下,弄清楚AI到底能不能“完整地做一份工作”,而不是完成几个子任务,变得格外重要。这也为后文的Remote Labor Index(RLI)埋下了伏笔。
从GDP Val到RLI:把评测拉回经济现实
这一节的核心在于方法论的转变。演讲者回顾了OpenAI在9月底推出的GDP Val:从美国GDP贡献最高的九大行业中选取44个职业,拆解为1320个专业任务,并经过多轮专家审核,试图衡量“经济上有价值的真实任务”。他直言,当时自己“非常兴奋”,因为这是评测从抽象走向现实的一步。
但真正让他“坐直了身子”的,是Dan Hendrickx(AI安全中心主任)公布的Remote Labor Index。RLI的野心更大:直接测试AI自动化真实远程工作的能力。研究团队与358位Upwork资深自由职业者合作,平均每人有2300多小时工时、2.3万美元收入。他们提供真实完成过、客户付过钱的项目样本。最终,研究者筛选出240个高质量项目,覆盖23个类别,人类完成这些项目平均需要28.9小时,平均成本632美元。这些数字,让评测第一次牢牢扎根于真实交易。
刺眼的结果:最强AI,也只做到2.5%
结果之所以重要,是因为它直接击中了“AI整岗替代”的核心假设。RLI采用的是头对头评估:人类评审判断AI交付物是否“至少和人类一样好”,并且“合理客户会接受”。结论相当残酷:当前最先进的AI代理“几乎贴着地板”。
排名第一的Manis,自动化率仅2.5%。Gro 4和Sonet 4.5都是2.1%,GBT 5为1.7%,Chat GBT Agent是1.3%,Gemini 2.5 Pro只有0.8%。也就是说,在240个真实项目中,AI几乎从未能独立交付到可被接受的程度。这不是“完成了多少步骤”,而是“能否交付一整份工作”的硬标准。
AI到底败在了哪里?失败比成功更有信息量
理解失败原因,才能判断改进空间。45.6%的拒绝源于质量问题:任务 technically 完成了,但“不够专业”,比如幼稚的图像或机械的配音。35.7%是因为不完整,代理干脆没把活干完。17.6%栽在技术和文件问题上,生成了损坏或不可用的文件,14.8%则是内部逻辑不一致。
但演讲者并没有一棒子打死。他指出两个积极信号:第一,音频、图像、写作和数据检索等领域表现明显更好;第二,不完整率低于预期,“能把一份工作完整跑完,哪怕不够好,本身就是一个重要里程碑”。在ELO相对评分中,AI彼此之间在持续进步,虽然离人类基线仍然很远。
2.5%意味着什么?对裁员恐慌的冷思考
这一部分给出了视频最有价值的判断。RLI评测的不是“任务完成”,而是“完整工作流的全自动化”。作者明确表示,他们要的是full automation指标,而这与GDP Val并不冲突。演讲者提醒:全自动化并不总是优先目标,在Agentic Coding领域,提升人类效率的辅助式AI同样重要。
因此,有人认为这说明“末日论该降温了”,AI擅长的是具体任务,而非整份工作;也有人反驳,2.5%对通用AI来说已经不低,垂直领域可能更高。无论站哪一边,更关键的是:用真实世界的数据,替代政治化、情绪化的噪音。
总结
这期视频的价值,不在于一个刺眼的2.5%,而在于一种更诚实的测量方式。真实项目、真实客户、真实标准,让我们看清AI离“整岗替代”还有多远。对个人而言,这意味着短期内更应关注“人机协作”的杠杆;对行业而言,真正的进步来自可重复、可验证的现实评测,而不是情绪化的预言。
关键词: AI Agent, 自动化率, Remote Labor Index, 通用人工智能, AI应用
事实核查备注: 视频来源:The AI Daily Brief;研究名称:Remote Labor Index(RLI);相关评测:GDP Val(OpenAI);关键人物:Dan Hendrickx(Center for AI Safety);样本数量:358名Upwork自由职业者、240个项目;人类完成时间:平均28.9小时;平均成本:632美元;自动化率:Manis 2.5%,Gro 4/ Sonet 4.5 2.1%,GBT 5 1.7%,Chat GBT Agent 1.3%,Gemini 2.5 Pro 0.8%;失败原因比例:45.6%质量、35.7%不完整、17.6%技术问题、14.8%不一致。