当 Scaling Laws 不再一视同仁：一次 Transformer 架构的反直觉实验

AI PM 编辑部 · 2021年05月10日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

我们习惯相信：模型越大，效果越好。但在这场 OpenAI Scholars Demo Day 的分享中，一个关键前提被悄悄动摇——Scaling Laws 可能并不“公平”对待所有 Transformer 架构。Shola Oyedele 用一组克制却锋利的实验，揭开了架构选择背后的成本与收益真相。

当 Scaling Laws 不再一视同仁：一次 Transformer 架构的反直觉实验

我们习惯相信：模型越大，效果越好。但在这场 OpenAI Scholars Demo Day 的分享中，一个关键前提被悄悄动摇——Scaling Laws 可能并不“公平”对待所有 Transformer 架构。Shola Oyedele 用一组克制却锋利的实验，揭开了架构选择背后的成本与收益真相。

所有人都在用 Scaling Laws，但很少人问：它对谁有效？

过去几年，Scaling Laws 几乎成了深度学习的“通用真理”：更多参数、更多数据、更多算力，带来更好的模型性能。这个结论主要来自对 decoder-only Transformer 的系统研究，也直接塑造了今天大模型竞赛的基本逻辑。

但 Shola 一上来就点破了一个被忽略的问题：这些结论，是否被我们“误用”到了所有 Transformer 架构上？如果 Scaling Laws 的结论高度依赖某一类架构，那当我们切换到其他变体时，继续盲目放大规模，可能只是在烧钱。

这正是她研究的起点——不是再验证一次 Scaling Laws 是否成立，而是追问一个更危险的问题：当架构发生变化，Scaling Laws 的趋势还会照旧吗？

从“只看规模”到“架构决定成本曲线”

在既有研究中，模型规模、数据规模和算力往往被当作独立且可线性扩展的变量。但在真实世界里，架构选择会同时改变这三件事。

Shola 的核心假设非常克制，却极具杀伤力：Scaling Laws 的实际效果，取决于某种架构对模型参数量、数据需求以及计算复杂度的综合影响。如果一种架构在扩大规模时显著改变了计算方式，那么它的“增长曲线”就不可能和标准 Transformer 完全一致。

因此，她没有停留在单一架构上，而是对不同 Transformer 变体进行实验比较，观察在扩展模型规模时，它们的表现趋势是否一致。这一步看似显而易见，但在当时的研究语境中却并不常见——多数工作默认架构只是实现细节，而不是决定 Scaling Laws 形态的关键变量。

实验结果不喧哗，却足够动摇直觉

在实验部分，Shola 并没有抛出夸张的 SOTA 数字，而是谨慎地展示了“趋势上的差异”。不同 Transformer 架构在规模扩展时，性能提升的斜率并不一致；有的架构在参数增加后收益迅速放缓，有的则在相同计算预算下更具性价比。

她特别强调，这些只是初步发现——受限于超参数搜索范围、实验规模以及实现差异，结论还远谈不上终局。但即便如此，一个重要信号已经出现：

“哪种架构最值得 scale，并没有一个放之四海而皆准的答案。”

这句话的潜台词是，如果你在一个并不友好的架构上强行堆参数，可能得到的不是更强的模型，而是一条越来越昂贵的成本曲线。

为什么这件事比“模型效果”更重要

在分享的最后，Shola 把焦点从“效果”转向了“代价”。在工业界真正重要的问题不是哪一个模型在排行榜上多赢 0.1 分，而是哪一种架构在给定时间和预算内最划算。

如果 Scaling Laws 会随架构而变，那么“最值得扩展的模型”本质上是一个经济问题，而不是纯粹的算法问题。这对研究者和工程团队都是一次提醒：

与其盲目追逐更大的模型，不如先搞清楚——你选的架构，是否值得被 scale。

这也为未来研究打开了空间：更系统的跨架构 scaling 实验、更精细的计算成本建模，以及在真实训练约束下重新审视我们奉为圭臬的经验定律。

总结

这场分享没有给出一个“新的 Scaling Laws 公式”，却做了一件更重要的事：提醒我们别把经验定律当自然法则。对从业者而言，最大的 takeaway 是——架构选择本身就是一种战略决策，它决定了你未来每一次扩展是在加速，还是在原地烧钱。下次你准备把模型规模翻倍时，或许该先问一句：这个架构，真的配得上更多算力吗？

关键词： Scaling Laws， Transformer 架构，模型规模，计算成本， OpenAI Scholars

事实核查备注：需要核查：视频发布时间（2021-05-10）；演讲者姓名拼写 Shola Oyedele；研究背景基于 OpenAI Scholars Demo Day 2021；原始 Scaling Laws 研究主要针对 decoder-only Transformer 的表述准确性；实验结果均为 preliminary findings，未给出具体数值。

返回文章列表