她用语言模型的方式生成音乐，却撞上了AI最难的一堵墙

AI PM 编辑部 · 2020年07月02日 · 1 阅读 · AI/人工智能

Token AI应用微调大语言模型神经网络生成式AI Transformer 提示工程模型训练 OpenAI

正在加载视频...

视频章节

在 OpenAI Scholars Demo Day 上，Christine Payne 做了一件反直觉的事：她没有发明全新的音乐模型，而是把“生成音乐”硬生生改造成一个语言模型问题。结果令人震惊——很多人已经分不清 AI 和人类作曲。但真正的挑战，才刚刚开始。

她用语言模型的方式生成音乐，却撞上了AI最难的一堵墙

在 OpenAI Scholars Demo Day 上，Christine Payne 做了一件反直觉的事：她没有发明全新的音乐模型，而是把“生成音乐”硬生生改造成一个语言模型问题。结果令人震惊——很多人已经分不清 AI 和人类作曲。但真正的挑战，才刚刚开始。

当人类听不出来时，AI音乐已经越过了一条线

演示一开始，Christine Payne 直接放音乐。不是论文，不是公式，而是两段听起来“很对”的钢琴曲：一段来自经典钢琴数据训练的模型，另一段来自爵士数据。听完之后，她抛出了一个让现场安静下来的事实——她做了一个盲测，让人分辨哪首是人写的，哪首是 AI 写的。

结果是：大多数人都猜错了。包括自称“专业音乐人”的听众。

这不是营销话术，而是一个非常危险又迷人的信号：在局部时间尺度内（30 秒到 1 分钟），生成式模型已经能够骗过人类的感知系统。音乐，正在成为继文本、图像之后，第三个被语言模型“攻陷”的创作领域。

把音乐当成语言：一个简单，却极其残酷的决定

Christine 的核心洞察只有一句话：音乐生成，本质上是一个语言模型问题。

在 NLP 世界里，我们早就习惯了这套流程：给模型一个 prompt，让它预测下一个 token，再把预测结果喂回去，周而复始，就得到了文本。她做的事情，是试图为“音乐”找到一种可以 token 化的表达。

难点也在这里。音乐不像句子那样一次只出现一个词——同一时间，你可以有任意多个音符，任意长短，任意组合。这让“下一个 token 是什么”变成一个爆炸式复杂的问题。

过去的做法往往通过强限制来换可行性：比如每个时间步只能有固定数量的音符，音域受限，只适合 Bach Chorale 这类结构高度规整的音乐。但 Christine 不满足，她的问题是：能不能更通用一点？

两种编码方式，其实是在复刻“词模型 vs 字符模型”的战争

她提出了两种音乐编码方式，名字听起来很技术，但思想非常“语言模型化”。

第一种是 chord-wise encoding。你可以把它理解成“词级语言模型”：在每一个时间步，用一个 88 维的 0/1 向量表示钢琴 88 个键是否被按下。这意味着，每一个 token 本质上是一个“和弦”。理论上组合数是 2 的 88 次方，但现实世界没那么疯狂——受限于手指数量和审美，真实的 vocab 大约是 5.5 万。

第二种是 note-wise encoding，更像字符级模型：一个音符一个音符地生成，中间用 wait token 表示时间延续。这种方式 vocab 更小，而且天然支持“长音”，对小提琴等持续发声乐器尤其友好。

有意思的是，结果并不完全符合直觉。chord-wise 模型非常擅长“记忆”——你给它一小段 Mozart，它能顺着风格继续生成 45 秒甚至 1 分钟，几乎原封不动。但问题也恰恰在这里：它太会背书了，很难跳出训练分布，创造真正新的模式。

真正的瓶颈，不在音符，而在“长期结构”

在问答环节，Christine 几乎主动点破了这个项目最痛的地方：长期结构。

她说，现在生成的音乐，前 30 秒通常都很好听，甚至 1 分钟也没问题。但再往后，你会突然意识到：这首曲子“哪儿也没去”。没有主题的回归，没有动机的变形，更没有那种人类作曲中常见的“先立意，再展开”。

她期待看到的是那种模式：一个短主题出现，两次重复，第三次开始变化、扩展、发展。但这在模型里只是偶尔发生，远谈不上稳定学会。

这其实和我们今天在大语言模型里看到的问题高度一致——模型可以写出漂亮的段落，却很难在长篇中保持清晰的叙事弧线。音乐只是更早、更赤裸地暴露了这个短板。

总结

Christine Payne 的分享并不是在宣告“AI 作曲成功了”，恰恰相反，它精准地揭示了生成式模型的能力边界：短期模仿已经很强，长期结构仍然薄弱。对 AI 从业者来说，这个故事至少有三个启发：第一，很多难题不是模型不够大，而是表示方式没选对；第二，token 设计本身就是创造力的一部分；第三，如果你想让模型真正“像人一样创作”，你迟早要正面解决长期规划和结构建模的问题。下一个突破点，可能不在更大的 Transformer，而在更聪明的结构归纳。

关键词：音乐生成，语言模型， Token 设计，生成式AI， OpenAI

事实核查备注：需要核查：1）Demo Day 的具体时长；2）chord-wise 编码的 vocab 规模约 55，000 是否为原话；3）模型使用的是 LSTM 还是其他序列模型；4）盲测结果是否有具体统计数据。

返回文章列表