从开源Bark到音乐情感:Suno CEO谈AI音乐的难题与机会

AI PM 编辑部 · 2024年05月16日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 No Priors 对话中,Suno CEO 兼联合创始人 Mikey Shulman 讲述了他们如何从开源语音模型 Bark 转向 AI 音乐创业,以及在“如何让音乐打动人”这一核心问题上的思考。这是一场关于技术边界、情感评估与创作初心的深度分享。

从开源Bark到音乐情感:Suno CEO谈AI音乐的难题与机会

在这期 No Priors 对话中,Suno CEO 兼联合创始人 Mikey Shulman 讲述了他们如何从开源语音模型 Bark 转向 AI 音乐创业,以及在“如何让音乐打动人”这一核心问题上的思考。这是一场关于技术边界、情感评估与创作初心的深度分享。

从开源模型 Bark 出发,却走向音乐创业

理解 Suno 的起点很重要,因为它解释了这家公司为什么对“感觉”如此执着。Mikey 回顾说,团队最早做的是开源模型 Bark,这个模型更多被外界理解为语音或音频生成工具。但在实际使用中,他们逐渐意识到,真正让团队兴奋的并不是“把话说清楚”,而是“让声音有情绪”。

这是一个关键转折:他们明确决定不把精力放在纯语音赛道,而是“decided to build a music company”。在他看来,语音的评判标准往往是清晰度和可懂度,而音乐完全不同,“which all I care about is how it makes me feel”。正是这种对情感价值的偏执,让 Suno 从一个开源项目,走向了更冒险、也更模糊的 AI 音乐方向。

这个故事的价值在于,它展示了一个并非由市场规模倒推、而是由创始团队真实兴趣驱动的战略选择。这种选择也直接决定了后续所有技术与产品决策。

不再追求“对不对”,而是“有没有感觉”

AI 音乐最难的地方,不在模型大小,而在评价体系。Mikey 直言,他们很早就发现,音乐不像文本或语音那样有明确的“正确答案”。你无法用 BLEU 或 WER 来判断一首歌好不好,真正的标准来自人。

因此,当被问到“how did you measure quality in your own models”时,他的回答直接指向“human beings and human emotions”。团队大量依赖人的主观反馈,在不断训练模型的同时,也在学习如何评价模型。这种边做边学的状态,让他形容这个领域充满了“unanswerable questions in this domain”。

这里的洞见是:在 AI 音乐中,评估本身就是一项尚未完成的研究课题。模型在进化,人类对音乐的理解方式也在被迫更新,这使得产品节奏、研究方法都与传统 AI 项目截然不同。

Token 视角:为什么下一 token 预测在音乐中同样成立

从技术角度看,这期对话最有信息量的部分,来自 Mikey 对 token 的理解。他提到,尽管音乐看起来连续而感性,但在建模时依然可以被拆解为序列问题,本质上仍然是“next token prediction”。

他解释说,音乐背景反而帮助团队更自然地接受这种抽象:旋律、节奏、和声都可以被视为结构化序列。当模型学会在这些 token 之间建立长期依赖关系时,就会“end up being very very powerful”。

重要的是,这并不是简单照搬语言模型思路,而是在音乐语境中重新理解 token 的含义。这一段让人看到,AI 音乐并非“玄学”,它依然建立在可解释的工程逻辑之上,只是目标函数不再是语义正确性,而是情绪连贯性。

产品被“黑客”式使用,才是真正的用户反馈

在谈到产品使用方式时,Mikey 分享了一个让他既意外又欣喜的现象:用户会不断“hack your product and tell you what they want out of it”。也就是说,人们会用非官方预期的方式来创作、组合、分享音乐。

这些行为并不总是“totally worked out yet”,但却揭示了产品真正的潜力方向。他观察到,很多用户开始把 AI 音乐当成一种社交与协作工具,而不仅是生成按钮。这种“Joy of Creation with other people”,让他觉得 AI 音乐的价值不止于效率,而在于连接。

在他看来,最终的成功标准也许很朴素:产品是否“make a lot of people smile”。这句话虽简单,却精准点出了 Suno 对未来的乐观与克制。

总结

这期对话没有炫技式的模型参数,也没有宏大的行业预测,但它提供了一个稀缺视角:当 AI 进入音乐领域,最大的挑战不是算力,而是人类自身的情感理解能力。Suno 从开源 Bark 到专注音乐的转向,提醒我们真正重要的技术决策,往往源于创作者内心的判断。对读者而言,这不仅是一次 AI 音乐的入门,更是一堂关于“如何选择值得解决的问题”的创业课。


关键词: AI音乐, Suno, 开源模型, Token预测, 人类情感

事实核查备注: 人物:Mikey Shulman(Suno CEO & Co-Founder);开源模型:Bark;话题:Token、开源模型;关键原话包括“how it makes me feel”“unanswerable questions in this domain”“make a lot of people smile”。