她在 OpenAI Demo Day 提了个反直觉结论:文本生成,比图像难多了

AI PM 编辑部 · 2020年07月02日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

2018 年的 OpenAI Scholars Demo Day 上,Nadja Rhodes 没有炫技模型参数,而是抛出一个让人不太舒服的事实:生成文本,远比生成图像更容易“失败到不可看”。她的项目 Deephypebot,不只是一个音乐评论机器人,而是一场关于“如何让语言模型不再胡说八道”的实验。

她在 OpenAI Demo Day 提了个反直觉结论:文本生成,比图像难多了

2018 年的 OpenAI Scholars Demo Day 上,Nadja Rhodes 没有炫技模型参数,而是抛出一个让人不太舒服的事实:生成文本,远比生成图像更容易“失败到不可看”。她的项目 Deephypebot,不只是一个音乐评论机器人,而是一场关于“如何让语言模型不再胡说八道”的实验。

最反直觉的发现:为什么 AI 画画能翻车,但 AI 写字不行

如果你做过生成模型,大概会有同样的感受:GAN 生成的猫哪怕五官错位,依然“能看”;但语言模型一旦跑偏,往往只剩下一堆让人头皮发麻的乱码。Nadja 在 Demo Day 上直接点破了这个不平衡——计算机视觉领域的“失败样本”,往往依然具备审美价值,而文本生成的失败,几乎是不可读的。

她举了一个经典对比:文本生成图像项目里,模型生成“坐在窗台上的猫”,即便猫没有头,毛发和轮廓还在,人类依然愿意盯着看;但语言模型一旦开始重复 token、逻辑断裂、语义塌陷,读者只想立刻关掉页面。问题不在模型不够强,而在语言这种媒介,对连贯性和意义的容错率极低。

这也是她整个项目的出发点:与其追求完美的“正确文本”,不如先解决一个更现实的问题——能不能生成“即使不完全对,但依然让人愿意读下去”的文字。

从读了一个夏天的垃圾样本开始,她重新定义了“好文本”

Nadja 很坦诚:她整个夏天读了“大量糟糕的生成文本”。这些输出并不是技术意义上的 bug,而是另一种更棘手的失败——语法没错、token 合法,但整体毫无意义。相比之下,偶尔出现的“半懂不懂”的段落,反而让人觉得有点可爱。

她展示了一个生成样本,模型反复尝试讨论 house music。它说不清楚观点,但你能感受到它“想说点什么”。这种“delightful yet coherent”的状态,成了她为文本生成设定的最低可接受标准。

这一步非常重要,因为它把目标从“语言学正确性”转向了“阅读体验”。对于创意 NLP 来说,这比 BLEU 分数或困惑度更贴近真实用户。她不再问:模型是不是对的?而是问:这个东西,人类会不会愿意看第二句?

DeepHypeBot:用音乐当条件,让语言模型少一点废话

DeepHypeBot 的想法本身并不复杂,但实现路径极具代表性:先自动识别 Twitter 上的音乐相关推文,再通过 Spotify API 抽取歌曲属性,用这些信息作为条件,驱动语言模型生成评论。

灵感来自 Hype Machine——一个聚合小众音乐博客的平台。Nadja 把这些博客当作“人类写作风格”的数据源,用爬虫和 API 收集、清洗了约十万句评论文本。这一步的关键不是规模,而是风格:这些句子天然带有形容词、情绪和画面感,正是她想要模型学会的东西。

在模型结构上,她选择了条件式 seq2seq 的变分自编码器(VAE)。理由很直接:相比 LSTM 按词预测,VAE 更擅长在句子层面学习“整体感觉”。再加上随机采样的 latent space,引入了一点不可控的创造性——这是她刻意保留的。

用 LC-GAN 微调“品味”:不是更像人,而是更好看

真正让项目成型的,是后续加上的 Latent Constraint GAN。Nadja 用一个非常形象的图解释:VAE 学到的是“所有可能的句子空间”,但其中只有一小块区域,既真实、又符合她的审美。

LC-GAN 的作用,就是把“看起来合理但无聊”的样本,映射到“依然合理但更有文采”的区域。最有意思的是,这一步不需要重新训练 VAE,只是在 latent space 上做风格迁移。

那问题来了:什么叫“有文采”?她没有手工标注,而是用主题模型把评论分成不同类型。一类是“氛围、情绪、器乐描写”,另一类是“巡演信息、事实陈述”。前者是她想要放大的信号,后者则被弱化,但并没有完全删除——因为模型仍然需要“普通英语”的底层感觉。这个取舍,非常工程化,也非常真实。

总结

Nadja Rhodes 的 Demo 并没有提出一个颠覆性的模型结构,却精准戳中了生成式 AI 的一个长期痛点:语言不是“能生成就够了”,而是“失败要失败得好看”。对今天的从业者来说,这个项目的启发在于三点:第一,创意 NLP 的评价标准必须以人类体验为中心;第二,条件信息(音乐、情绪、属性)是控制语言走向的关键杠杆;第三,人类偏好——点赞、转发、选择——本身就是尚未被充分利用的监督信号。也许下一个突破,不来自更大的模型,而来自更懂“什么值得被读完”的系统。


关键词: 生成式AI, 大语言模型, 文本生成, 变分自编码器, 强化学习

事实核查备注: 需要核查:1)演讲者姓名 Nadja Rhodes 的拼写;2)OpenAI Scholars Demo Day 举办时间为 2018 年;3)Deephypebot 为 Twitter Bot 项目;4)训练数据规模约为十万句;5)模型结构包含条件 VAE 与 LC-GAN 微调。