英语模型迁移到中文有多难?OpenAI一组Scaling Laws给了残酷答案

AI PM 编辑部 · 2021年05月10日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人直觉认为:只要模型够大、预训练够久,语言迁移自然水到渠成。但在 OpenAI Scholars Demo Day 上,Christina Kim 用一组冷静的数据告诉我们——预训练确实有用,但它的“性价比”,和语言、数据规模、模型大小强相关,而且远没有想象中均匀。

英语模型迁移到中文有多难?OpenAI一组Scaling Laws给了残酷答案

很多人直觉认为:只要模型够大、预训练够久,语言迁移自然水到渠成。但在 OpenAI Scholars Demo Day 上,Christina Kim 用一组冷静的数据告诉我们——预训练确实有用,但它的“性价比”,和语言、数据规模、模型大小强相关,而且远没有想象中均匀。

一个反直觉的发现:预训练并不是“万能加成”

如果你在做多语言或跨语言模型,大概率听过一句话:先用英语大数据预训练,再迁移到其他语言,基本稳赚不赔。 Christina Kim 的项目,恰恰是来量化这句话到底“赚”在哪里、又在哪些情况下开始失灵。

她关注的不是模型结构创新,而是一个更底层的问题:当我们把一个英语预训练语言模型迁移到中文、西班牙、德语时,Scaling Laws 还成立吗? 更重要的是:预训练到底帮我们“省”了多少数据?

答案并不平均。实验显示,英语预训练模型在德语上的帮助最大,其次是西班牙语,最弱的是中文。这并不意外,却第一次被系统性地量化出来——语言相似性,真实地体现在 loss 曲线和数据需求上,而不是一句模糊的“感觉上更像”。

Scaling Laws 不只是讲“大模型”,而是讲“瓶颈”

Christina 的整个研究框架,建立在 OpenAI 过去提出的 Scaling Laws 之上:模型性能可以被预测为模型规模、数据规模和计算量的函数。关键不在于无限放大,而在于——你此刻被哪个因素卡住了。

在理想世界里,我们有无限高质量数据,模型只受限于算力和参数量。但现实恰恰相反:大多数真实任务,都处在“低数据区间”。尤其是非英语语言,获取干净、可用、规模化的数据,成本高到让人却步。

这也是为什么“迁移学习的 Scaling Laws”格外重要。它告诉你:在数据受限时,预训练到底能不能用算力换数据?以及,这种替代关系能持续到什么程度?

真正有杀伤力的指标:Effective Data Transfer

这项研究里最值得被反复引用的概念,叫 Effective Data Transfer(有效数据迁移量)

直观理解很简单:
- 用英语预训练模型微调,需要多少目标语言数据,才能达到某个 loss?
- 如果从零训练,要达到同样的 loss,又需要多少数据?

两者的差值,就是预训练“白送”的数据量。

结果非常耐人寻味:随着目标语言数据规模增加,预训练带来的“有效数据”快速缩水,最终在某个规模附近趋于稳定(例如约千万 token 量级)。换句话说:预训练最值钱的地方,不是在数据充足时锦上添花,而是在数据稀缺时雪中送炭。

更进一步,当模型规模变大,这种迁移效率整体提升;但当微调数据规模变大,预训练的相对价值反而下降。这一来一回,把“该不该继续堆数据 or 堆模型”的问题,拉回了可计算、可预测的层面。

工程现实比论文更扎心:算力、Tokenizer 和中文

作为前机器学习工程师,Christina 并没有回避实验的局限性,反而点中了很多从业者的痛点。

比如:所有语言共用 GPT‑2 的 50k tokenizer。 对德语和西班牙语问题不大,但对中文而言,token 粒度和覆盖率天然吃亏——这意味着一部分“迁移困难”,其实并不完全来自语言本身。

再比如:预训练是否“够久”?是否做了足够全面的学习率和超参搜索?这些在论文里常被一句话带过,但在真实算力预算下,每一个选择都意味着成本。

但有一点结论非常明确:相比从头训练,使用预训练模型在算力上要高效得多。 在低数据场景下,这种效率优势几乎是决定性的。

总结

这项研究真正的价值,不在于告诉你“预训练有用”——这是共识;而在于,它开始精确回答:什么时候最有用?对谁最有用?值不值得继续砸资源?

如果你在做非英语模型、低资源语言,或企业内部的小数据任务,这里有三个直接 takeaway:第一,别等数据齐了再动手,预训练在早期回报最高;第二,语言相似性是真实存在的技术变量,不只是学术标签;第三,Scaling Laws 可以用来做决策,而不只是写在论文里的漂亮曲线。

一个值得继续追问的问题是:如果我们反过来,用中文或其他语言预训练,再迁移回英语,Scaling Laws 会不会讲出另一个故事?


关键词: Scaling Laws, 语言迁移学习, 预训练模型, 低资源语言, OpenAI

事实核查备注: 需核查:1)模型规模范围(3.3M 到 124M 非 embedding 参数);2)训练数据 OpenWebText2 与 token 数约 26B;3)有效数据迁移在约千万 token 附近收敛的具体数值;4)使用 GPT-2 tokenizer(50k vocab);5)视频发布时间 2021-05-10