她用语言模型的方式生成音乐,却撞上了AI最难的一堵墙

AI PM 编辑部 · 2020年07月02日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI Scholars Demo Day 上,Christine Payne 做了一件反直觉的事:她没有发明全新的音乐模型,而是把“生成音乐”硬生生改造成一个语言模型问题。结果令人震惊——很多人已经分不清 AI 和人类作曲。但真正的挑战,才刚刚开始。

她用语言模型的方式生成音乐,却撞上了AI最难的一堵墙

在 OpenAI Scholars Demo Day 上,Christine Payne 做了一件反直觉的事:她没有发明全新的音乐模型,而是把“生成音乐”硬生生改造成一个语言模型问题。结果令人震惊——很多人已经分不清 AI 和人类作曲。但真正的挑战,才刚刚开始。

当人类听不出来时,AI音乐已经越过了一条线

演示一开始,Christine Payne 直接放音乐。不是论文,不是公式,而是两段听起来“很对”的钢琴曲:一段来自经典钢琴数据训练的模型,另一段来自爵士数据。听完之后,她抛出了一个让现场安静下来的事实——她做了一个盲测,让人分辨哪首是人写的,哪首是 AI 写的。

结果是:大多数人都猜错了。包括自称“专业音乐人”的听众。

这不是营销话术,而是一个非常危险又迷人的信号:在局部时间尺度内(30 秒到 1 分钟),生成式模型已经能够骗过人类的感知系统。音乐,正在成为继文本、图像之后,第三个被语言模型“攻陷”的创作领域。

把音乐当成语言:一个简单,却极其残酷的决定

Christine 的核心洞察只有一句话:音乐生成,本质上是一个语言模型问题。

在 NLP 世界里,我们早就习惯了这套流程:给模型一个 prompt,让它预测下一个 token,再把预测结果喂回去,周而复始,就得到了文本。她做的事情,是试图为“音乐”找到一种可以 token 化的表达。

难点也在这里。音乐不像句子那样一次只出现一个词——同一时间,你可以有任意多个音符,任意长短,任意组合。这让“下一个 token 是什么”变成一个爆炸式复杂的问题。

过去的做法往往通过强限制来换可行性:比如每个时间步只能有固定数量的音符,音域受限,只适合 Bach Chorale 这类结构高度规整的音乐。但 Christine 不满足,她的问题是:能不能更通用一点?

两种编码方式,其实是在复刻“词模型 vs 字符模型”的战争

她提出了两种音乐编码方式,名字听起来很技术,但思想非常“语言模型化”。

第一种是 chord-wise encoding。你可以把它理解成“词级语言模型”:在每一个时间步,用一个 88 维的 0/1 向量表示钢琴 88 个键是否被按下。这意味着,每一个 token 本质上是一个“和弦”。理论上组合数是 2 的 88 次方,但现实世界没那么疯狂——受限于手指数量和审美,真实的 vocab 大约是 5.5 万。

第二种是 note-wise encoding,更像字符级模型:一个音符一个音符地生成,中间用 wait token 表示时间延续。这种方式 vocab 更小,而且天然支持“长音”,对小提琴等持续发声乐器尤其友好。

有意思的是,结果并不完全符合直觉。chord-wise 模型非常擅长“记忆”——你给它一小段 Mozart,它能顺着风格继续生成 45 秒甚至 1 分钟,几乎原封不动。但问题也恰恰在这里:它太会背书了,很难跳出训练分布,创造真正新的模式。

真正的瓶颈,不在音符,而在“长期结构”

在问答环节,Christine 几乎主动点破了这个项目最痛的地方:长期结构。

她说,现在生成的音乐,前 30 秒通常都很好听,甚至 1 分钟也没问题。但再往后,你会突然意识到:这首曲子“哪儿也没去”。没有主题的回归,没有动机的变形,更没有那种人类作曲中常见的“先立意,再展开”。

她期待看到的是那种模式:一个短主题出现,两次重复,第三次开始变化、扩展、发展。但这在模型里只是偶尔发生,远谈不上稳定学会。

这其实和我们今天在大语言模型里看到的问题高度一致——模型可以写出漂亮的段落,却很难在长篇中保持清晰的叙事弧线。音乐只是更早、更赤裸地暴露了这个短板。

总结

Christine Payne 的分享并不是在宣告“AI 作曲成功了”,恰恰相反,它精准地揭示了生成式模型的能力边界:短期模仿已经很强,长期结构仍然薄弱。对 AI 从业者来说,这个故事至少有三个启发:第一,很多难题不是模型不够大,而是表示方式没选对;第二,token 设计本身就是创造力的一部分;第三,如果你想让模型真正“像人一样创作”,你迟早要正面解决长期规划和结构建模的问题。下一个突破点,可能不在更大的 Transformer,而在更聪明的结构归纳。


关键词: 音乐生成, 语言模型, Token 设计, 生成式AI, OpenAI

事实核查备注: 需要核查:1)Demo Day 的具体时长;2)chord-wise 编码的 vocab 规模约 55,000 是否为原话;3)模型使用的是 LSTM 还是其他序列模型;4)盲测结果是否有具体统计数据。