正在加载视频...
视频章节
我们习惯相信:模型越大,效果越好。但在这场 OpenAI Scholars Demo Day 的分享中,一个关键前提被悄悄动摇——Scaling Laws 可能并不“公平”对待所有 Transformer 架构。Shola Oyedele 用一组克制却锋利的实验,揭开了架构选择背后的成本与收益真相。
当 Scaling Laws 不再一视同仁:一次 Transformer 架构的反直觉实验
我们习惯相信:模型越大,效果越好。但在这场 OpenAI Scholars Demo Day 的分享中,一个关键前提被悄悄动摇——Scaling Laws 可能并不“公平”对待所有 Transformer 架构。Shola Oyedele 用一组克制却锋利的实验,揭开了架构选择背后的成本与收益真相。
所有人都在用 Scaling Laws,但很少人问:它对谁有效?
过去几年,Scaling Laws 几乎成了深度学习的“通用真理”:更多参数、更多数据、更多算力,带来更好的模型性能。这个结论主要来自对 decoder-only Transformer 的系统研究,也直接塑造了今天大模型竞赛的基本逻辑。
但 Shola 一上来就点破了一个被忽略的问题:这些结论,是否被我们“误用”到了所有 Transformer 架构上?如果 Scaling Laws 的结论高度依赖某一类架构,那当我们切换到其他变体时,继续盲目放大规模,可能只是在烧钱。
这正是她研究的起点——不是再验证一次 Scaling Laws 是否成立,而是追问一个更危险的问题:当架构发生变化,Scaling Laws 的趋势还会照旧吗?
从“只看规模”到“架构决定成本曲线”
在既有研究中,模型规模、数据规模和算力往往被当作独立且可线性扩展的变量。但在真实世界里,架构选择会同时改变这三件事。
Shola 的核心假设非常克制,却极具杀伤力:Scaling Laws 的实际效果,取决于某种架构对模型参数量、数据需求以及计算复杂度的综合影响。如果一种架构在扩大规模时显著改变了计算方式,那么它的“增长曲线”就不可能和标准 Transformer 完全一致。
因此,她没有停留在单一架构上,而是对不同 Transformer 变体进行实验比较,观察在扩展模型规模时,它们的表现趋势是否一致。这一步看似显而易见,但在当时的研究语境中却并不常见——多数工作默认架构只是实现细节,而不是决定 Scaling Laws 形态的关键变量。
实验结果不喧哗,却足够动摇直觉
在实验部分,Shola 并没有抛出夸张的 SOTA 数字,而是谨慎地展示了“趋势上的差异”。不同 Transformer 架构在规模扩展时,性能提升的斜率并不一致;有的架构在参数增加后收益迅速放缓,有的则在相同计算预算下更具性价比。
她特别强调,这些只是初步发现——受限于超参数搜索范围、实验规模以及实现差异,结论还远谈不上终局。但即便如此,一个重要信号已经出现:
“哪种架构最值得 scale,并没有一个放之四海而皆准的答案。”
这句话的潜台词是,如果你在一个并不友好的架构上强行堆参数,可能得到的不是更强的模型,而是一条越来越昂贵的成本曲线。
为什么这件事比“模型效果”更重要
在分享的最后,Shola 把焦点从“效果”转向了“代价”。在工业界真正重要的问题不是哪一个模型在排行榜上多赢 0.1 分,而是哪一种架构在给定时间和预算内最划算。
如果 Scaling Laws 会随架构而变,那么“最值得扩展的模型”本质上是一个经济问题,而不是纯粹的算法问题。这对研究者和工程团队都是一次提醒:
与其盲目追逐更大的模型,不如先搞清楚——你选的架构,是否值得被 scale。
这也为未来研究打开了空间:更系统的跨架构 scaling 实验、更精细的计算成本建模,以及在真实训练约束下重新审视我们奉为圭臬的经验定律。
总结
这场分享没有给出一个“新的 Scaling Laws 公式”,却做了一件更重要的事:提醒我们别把经验定律当自然法则。对从业者而言,最大的 takeaway 是——架构选择本身就是一种战略决策,它决定了你未来每一次扩展是在加速,还是在原地烧钱。下次你准备把模型规模翻倍时,或许该先问一句:这个架构,真的配得上更多算力吗?
关键词: Scaling Laws, Transformer 架构, 模型规模, 计算成本, OpenAI Scholars
事实核查备注: 需要核查:视频发布时间(2021-05-10);演讲者姓名拼写 Shola Oyedele;研究背景基于 OpenAI Scholars Demo Day 2021;原始 Scaling Laws 研究主要针对 decoder-only Transformer 的表述准确性;实验结果均为 preliminary findings,未给出具体数值。