正在加载视频...
视频章节
如果你以为更强的模型=更高的开发效率,这场分享可能会让你愣住。METR没有去算“写代码快了多少”,而是盯上了一个更残酷的问题:当任务真的很长、很复杂时,AI到底帮了多少忙?答案,比很多从业者预期的要保守得多。
AI没让程序员更快?METR用“长任务”测出了一个反直觉结论
如果你以为更强的模型=更高的开发效率,这场分享可能会让你愣住。METR没有去算“写代码快了多少”,而是盯上了一个更残酷的问题:当任务真的很长、很复杂时,AI到底帮了多少忙?答案,比很多从业者预期的要保守得多。
为什么“长任务”,才是AI生产力的照妖镜
Joel Becker在分享一开始就抛出了一个简单却危险的假设:如果我们只用“短任务”来评估AI能力,那我们可能严重高估了它对真实工作的帮助。真正拉开人和模型差距的,不是补全几行代码,而是那些“可能要花上数小时甚至数天”的长任务。
METR的思路很直接:不要问模型能不能写函数,而是问——在一个完整、复杂、充满不确定性的任务里,完成时间的上限到底在哪里?一旦把评估视角拉长,你会发现一个现象:即便模型在局部能力上进步很快,但在长任务上的延迟,可能是“指数级”的。这也是他那句看似轻描淡写、却让人后背发凉的话——如果AI能力提升伴随着这种延迟,那我们对“很快会发生什么”的判断,可能整体都偏乐观了。
算力放缓、能力排序:为什么“进步变慢”反而更重要
不少人这两年都在讨论算力增长是否会放缓。Joel并没有回避这个问题,但他的关注点很不一样:算力放缓并不只是“模型变慢”,而是会导致一种能力上的重新排序。
当计算资源不再无限时,哪些能力优先被优化?是推理深度,还是工具调用?是写代码,还是理解复杂需求?在METR的观察中,这种取舍会直接影响AI在“接近真实工作”的任务中的表现。
也正因为如此,他对一些过于精确的量化预测保持高度怀疑。在分享中他直言,某些看起来“差异巨大”的数字,其实并不值得被过度相信。相比之下,他更关心的是趋势形状——能力是线性增长、平台期,还是在长任务上出现明显的瓶颈。这个判断,决定了我们该如何看待未来几年AI在研发效率上的真实影响。
人机协作不是魔法:迭代循环才是瓶颈
一个贯穿整场讨论的关键词是:human-machine iteration loop。很多人期待的是“把任务丢给AI,它一次性搞定”。但现实更像是:人提出需求,模型给出结果,人再修正,再提示,再验证。
Joel的态度非常克制。他承认团队正在探索绕开某些限制的方法,但同时也强调,目前这个循环本身就是效率瓶颈之一。尤其是在长任务中,每一次上下文切换、每一次误解需求,都会被无限放大。
这也解释了为什么在实验中,不同开发者的体验差异很大。有经验的开源开发者,往往更擅长把AI当成工具,而不是“代理人”。有人在问答环节提到,像Cloud Code这样的工具确实提供了巨大帮助,但前提是:你知道什么时候该信它,什么时候必须亲自下场。
别急着押注Agent:今天能“自己想明白”的概率很低
当话题转向AI Agent时,现场气氛明显更谨慎了。有人直接问:模型或Agent今天有没有可能自己发现并解决复杂问题?Joel的回答几乎没有留幻想空间——“概率相当低”。
这并不是否定Agent路线,而是提醒大家别混淆“演示效果”和“规模化可行性”。在小样本、理想环境下跑通的东西,一旦放到真实世界,成本和复杂度会迅速失控。他甚至直言,某些方法“在大规模下完全不现实”。
但这并不意味着悲观。相反,他强调,如果真的能把发现和研发的成本降下来,其社会影响将是巨大的。问题不在于方向对不对,而在于:我们是否低估了中间那段漫长、乏味、充满摩擦的工程过程。
总结
这场分享最有价值的地方,不在于给出了一个乐观或悲观的结论,而是强迫我们换了一种看AI的方式:别只盯着模型有多聪明,而要看它在“长时间、复杂任务”里的真实表现。对AI从业者来说,最现实的takeaway是三点:第一,别迷信单一指标,尤其是短任务效率;第二,把时间花在优化人机协作流程,而不是幻想全自动;第三,对Agent和预测保持耐心,真正的突破,很可能来自那些看起来“不性感”的评估和工具改进。你可以问自己一个问题:如果今天让AI陪你做一周的真实项目,它会在哪一天拖慢你?答案,可能比参数规模更重要。
关键词: METR, 长任务评估, 开发者生产力, 大语言模型, AI Agent
事实核查备注: 需要核查:1)视频的实际时长以确认文章长度匹配;2)Joel Becker在METR的具体职务;3)METR对“长任务”评估的正式定义;4)Cloud Code在视频中被提及的具体语境;5)关于算力放缓的原话表述是否为推测而非结论