算力跑20天不如7小时？一次演讲重估“最先进模型”的定义

AI PM 编辑部 · 2026年06月01日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

如果一个模型在排行榜上第一，却要烧掉20天算力；另一个只跑7小时却更贴近你的真实应用——谁才是真正的“state of the art”？Pruna 的 Bertrand Charpentier 在这场演讲中，直接对当前 AI 行业最迷信的东西开刀：基准测试和排行榜。

如果一个模型在排行榜上第一，却要烧掉20天算力；另一个只跑7小时却更贴近你的真实应用——谁才是真正的“state of the art”？Pruna 的 Bertrand Charpentier 在这场演讲中，直接对当前 AI 行业最迷信的东西开刀：基准测试和排行榜。

当我们想判断“哪个模型最先进”，最省事的办法是什么？Bertrand 说得很直接：去网上查公开排行榜。低成本、低心智负担，还自带权威感。

但问题也正出在这里。排行榜告诉你的，只是“在这个数据集、这个指标、这个设置下”，谁赢了。它并不等于“在你的业务里谁最好”。更危险的是，人们会下意识把“榜一”理解为“综合最强”，而忽略了它背后大量你并不了解的细节：评测条件、数据分布、甚至是否贴近真实使用场景。

一句话总结就是：排行榜解决的是“快速筛选”，而不是“正确决策”。

第二个被忽略的问题更现实：大多数团队只有一个具体应用场景。

而排行榜往往是“平均意义上的最优”。你做的是文本渲染、摘要、客服对话，还是代码补全？排行榜并不关心。它不会告诉你：在你的输入长度、延迟约束、失败容忍度下，哪个模型更稳。

Bertrand 指出一个常见误区：团队只盯着一个排行榜，而忽略了其他可能更相关的评测维度。结果就是——选了一个“大家都说好”的模型，却在生产环境里频频踩雷。所谓 state-of-the-art，在真实应用中，可能根本不成立。

那不用排行榜，直接做人类评测行不行？答案是：行，但不便宜。

人类评测确实更接近真实体验，但难点在于规模化和一致性。你评测的到底是什么？是语言自然度，还是任务完成度？不同评审之间的偏差，是否被控制？如果你没有想清楚这些问题，最后得到的分数，可能只是“看起来很科学”。

更关键的是成本。当评测规模上来，人力、时间、流程管理都会迅速放大。这也是为什么很多团队明知道人评更好，最后还是退回到自动化指标。

演讲里最刺痛人的一刀，落在 compute cost 上。

如果一个模型为了在评测中领先，需要 20 天算力；而另一个模型 7 小时就能达到“足够好”，那在工程和商业层面，答案其实已经很清楚了。Bertrand 用“针对文本渲染这个具体用例”来强调：最先进，不等于最复杂，而是最合适。

这也引出了他最后抛给全场的问题：当算力成本、缓存策略、延迟要求都变成一等公民时，我们还应该继续用旧的方式理解 benchmark 吗？

这场演讲真正想动摇的，不是某个排行榜，而是一种行业惯性思维：把“评测领先”当成“决策终点”。对 AI 从业者来说，更成熟的做法是反过来问：我的真实约束是什么？延迟、成本、稳定性、可维护性，哪一个最重要？

当你开始用自己的用例、小规模但高相关的评测，去挑战那些光鲜的榜单时，你才真正理解了什么叫 state-of-the-art。也许下一次朋友再聊模型，你可以反问一句：你说的“最强”，是在哪个场景下？

关键词： AI评测，排行榜迷思，算力成本， Benchmark， State of the Art

事实核查备注：需要核查：演讲者 Bertrand Charpentier 的身份与所属公司 Pruna；视频标题中的“20 days of compute vs 7 hours”是否为演讲中的原始表述；演讲具体针对的用例是否为 text rendering。