45秒生成商用音乐,Stability AI悄悄把AI音乐拉进“可用时代”

AI PM 编辑部 · 2023年09月14日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

当大多数人还在争论AI能不能“写歌”,Stability AI已经把答案变成了一个可下载、可商用、不到1秒生成的产品。Stable Audio的发布,不只是又一个模型上线,而是第一次让AI音乐真正进入生产流程,也顺带揭示了谁在下一轮多模态竞争中领先。

45秒生成商用音乐,Stability AI悄悄把AI音乐拉进“可用时代”

当大多数人还在争论AI能不能“写歌”,Stability AI已经把答案变成了一个可下载、可商用、不到1秒生成的产品。Stable Audio的发布,不只是又一个模型上线,而是第一次让AI音乐真正进入生产流程,也顺带揭示了谁在下一轮多模态竞争中领先。

AI音乐终于不再是“实验品”,而是能交付的工具

在文本生成音乐这个赛道,过去一年一直有点“雷声大、落地慢”。Google 的 MusicLM 和 Meta 的 AudioCraft 都很惊艳,但一个停留在研究阶段,一个更像开发者玩具。Stability AI 这次不一样:Stable Audio 是直接给普通用户用的。

最关键的不是模型名字,而是产品形态。Stable Audio 提供了一个可直接使用的 Web 界面,免费版可以生成并下载最长 45 秒的音乐,付费版不仅拉长到 90 秒,还明确支持商业用途。这在当前的 AI 音乐产品里非常罕见——大多数要么不能商用,要么规则暧昧。

更重要的是,Stability 把“生成速度”这件事推到了前台。官方披露,Stable Audio 可以在一张 NVIDIA A100 上,用不到 1 秒生成 95 秒的立体声音频。这背后依赖的是 latent diffusion 架构:不是直接在原始音频上算,而是对音频的潜在表示进行高度下采样。这听起来很工程,但对创作者的意义只有一句话:你可以像生成图片一样反复试音频,而不是等半天。

这一步,基本宣告 AI 音乐从“听听demo”进入“可以被工作流接纳”的阶段。

最反直觉的地方:AI音乐可能先不会用来“写完整歌曲”

视频里一个很有洞察的判断是:Stable Audio 短期内最重要的用途,可能不是拿来做一首完整的歌。

原因很简单。45秒或90秒,本身就不太像传统音乐作品的长度。但它却完美适配另一个正在爆发的场景:AI 视频的背景音乐和音效。Runway、Pika Labs 这些文本生成视频工具,最缺的恰恰不是画面,而是“不会侵权、风格可控、生成够快”的声音素材。

你从官方示例就能感受到这种定位:
- “Ibiza Beach 4AM 的迷幻电音”
- “温暖、柔软、像一个拥抱的环境音”
- 甚至只是一个“drum solo”

这些都不是传统意义上的歌曲,而是情绪、氛围、节奏模块。它们更像是多模态内容里的“声音积木”。

有评论甚至大胆预测:到2039年,我们听的大多数音乐都会是“为你定制的 AI 音乐”。这个时间点是否准确不重要,但方向很清晰——AI音乐的第一波价值,不是取代音乐人,而是填满那些过去没人愿意、也没人来得及做的声音需求。

为什么是 Stability AI 先跑出来,而不是 Google 或 Meta

从技术实力看,Google 和 Meta 并不弱,甚至更强。但 Stable Audio 率先形成“可用产品”,背后其实是三种公司路径的差异。

第一,Stability AI 一直更激进。他们的策略不是等模型完美,而是尽快把模型变成产品,让真实用户来“拷打”。Stable Diffusion 当年就是这么赢的。

第二,版权策略相对清晰。Stable Audio 明确表示,模型训练使用的是 AudioSparx 的授权音乐库,包含 80 多万个声音素材。这一点,对想商用的用户极其重要。

第三,产品导向而不是研究导向。Google 的 MusicLM 仍然是“你知道它很强,但你用不到”;Meta 的 AudioCraft 更像一个工具箱。Stable Audio 则是:打开网页,输入一句话,下载文件,结束。

这也解释了一个更大的趋势:在多模态时代,真正拉开差距的,不只是模型参数,而是谁能最快把模型嵌进真实工作流。

当AI工具落地,资本和大公司已经用钱投票

视频后半段看似话题分散,但其实在回答同一个问题:这波 AI 是不是泡沫?

高盛的答案很直接:至少现在还不是。他们指出,当前领跑生成式 AI 的美国科技巨头,平均市盈率约为 25,远低于互联网泡沫顶峰时的 52。而且这些公司已经高度盈利,现金储备、回报率都明显更健康。

同一时间,你看到的是另一种“投票”:
- 军事领域,Shield AI 融资 1.5 亿美元,估值 25 亿美元;
- 咨询行业,EY 投入 14 亿美元自研大模型,KPMG、Accenture 紧随其后。

这些都不是蹭热点的创业团队,而是对 ROI 极其敏感的组织。他们持续砸钱,说明 AI 正在从“讲故事”阶段,进入“算得过账”的阶段。

Stable Audio,正是这种转变在创意领域的一个缩影。

总结

如果你是 AI 从业者,Stable Audio 释放的信号很明确:下一个竞争焦点不在“能不能生成”,而在“能不能被用”。速度、版权清晰度、与其他工具的耦合度,正在变得比模型炫技更重要。

一个现实的行动建议是:别只盯着“完整作品”的替代,而要关注那些被忽略的中间环节——背景音、情绪层、快速原型。这些地方,AI 已经明显比人类更快、更便宜。

最后留一个判断题:当声音、画面、文本都能被一句话同时生成时,真正稀缺的,会不会反而是“知道该生成什么”的能力?


关键词: Stable Audio, AI音乐生成, 多模态AI, Stability AI, 生成式AI应用

事实核查备注: Stable Audio 免费版/付费版的时长与商用权限;AudioSparx 音频库规模(80万+);95秒音频在 NVIDIA A100 上小于1秒生成的说法;视频发布时间为 2023-09-14;高盛关于AI股票非泡沫的报告日期与核心数据