45秒生成商用音乐，Stability AI悄悄把AI音乐拉进“可用时代”

AI PM 编辑部 · 2023年09月14日 · 2 阅读 · AI/人工智能

多模态 AI应用推理大语言模型文本生成图像 AI工具生成式AI AI绘画提示工程 Runway

正在加载视频...

视频章节

当大多数人还在争论AI能不能“写歌”，Stability AI已经把答案变成了一个可下载、可商用、不到1秒生成的产品。Stable Audio的发布，不只是又一个模型上线，而是第一次让AI音乐真正进入生产流程，也顺带揭示了谁在下一轮多模态竞争中领先。

45秒生成商用音乐，Stability AI悄悄把AI音乐拉进“可用时代”

当大多数人还在争论AI能不能“写歌”，Stability AI已经把答案变成了一个可下载、可商用、不到1秒生成的产品。Stable Audio的发布，不只是又一个模型上线，而是第一次让AI音乐真正进入生产流程，也顺带揭示了谁在下一轮多模态竞争中领先。

AI音乐终于不再是“实验品”，而是能交付的工具

在文本生成音乐这个赛道，过去一年一直有点“雷声大、落地慢”。Google 的 MusicLM 和 Meta 的 AudioCraft 都很惊艳，但一个停留在研究阶段，一个更像开发者玩具。Stability AI 这次不一样：Stable Audio 是直接给普通用户用的。

最关键的不是模型名字，而是产品形态。Stable Audio 提供了一个可直接使用的 Web 界面，免费版可以生成并下载最长 45 秒的音乐，付费版不仅拉长到 90 秒，还明确支持商业用途。这在当前的 AI 音乐产品里非常罕见——大多数要么不能商用，要么规则暧昧。

更重要的是，Stability 把“生成速度”这件事推到了前台。官方披露，Stable Audio 可以在一张 NVIDIA A100 上，用不到 1 秒生成 95 秒的立体声音频。这背后依赖的是 latent diffusion 架构：不是直接在原始音频上算，而是对音频的潜在表示进行高度下采样。这听起来很工程，但对创作者的意义只有一句话：你可以像生成图片一样反复试音频，而不是等半天。

这一步，基本宣告 AI 音乐从“听听demo”进入“可以被工作流接纳”的阶段。

最反直觉的地方：AI音乐可能先不会用来“写完整歌曲”

视频里一个很有洞察的判断是：Stable Audio 短期内最重要的用途，可能不是拿来做一首完整的歌。

原因很简单。45秒或90秒，本身就不太像传统音乐作品的长度。但它却完美适配另一个正在爆发的场景：AI 视频的背景音乐和音效。Runway、Pika Labs 这些文本生成视频工具，最缺的恰恰不是画面，而是“不会侵权、风格可控、生成够快”的声音素材。

你从官方示例就能感受到这种定位：
- “Ibiza Beach 4AM 的迷幻电音”
- “温暖、柔软、像一个拥抱的环境音”
- 甚至只是一个“drum solo”

这些都不是传统意义上的歌曲，而是情绪、氛围、节奏模块。它们更像是多模态内容里的“声音积木”。

有评论甚至大胆预测：到2039年，我们听的大多数音乐都会是“为你定制的 AI 音乐”。这个时间点是否准确不重要，但方向很清晰——AI音乐的第一波价值，不是取代音乐人，而是填满那些过去没人愿意、也没人来得及做的声音需求。

为什么是 Stability AI 先跑出来，而不是 Google 或 Meta

从技术实力看，Google 和 Meta 并不弱，甚至更强。但 Stable Audio 率先形成“可用产品”，背后其实是三种公司路径的差异。

第一，Stability AI 一直更激进。他们的策略不是等模型完美，而是尽快把模型变成产品，让真实用户来“拷打”。Stable Diffusion 当年就是这么赢的。

第二，版权策略相对清晰。Stable Audio 明确表示，模型训练使用的是 AudioSparx 的授权音乐库，包含 80 多万个声音素材。这一点，对想商用的用户极其重要。

第三，产品导向而不是研究导向。Google 的 MusicLM 仍然是“你知道它很强，但你用不到”；Meta 的 AudioCraft 更像一个工具箱。Stable Audio 则是：打开网页，输入一句话，下载文件，结束。

这也解释了一个更大的趋势：在多模态时代，真正拉开差距的，不只是模型参数，而是谁能最快把模型嵌进真实工作流。

当AI工具落地，资本和大公司已经用钱投票

视频后半段看似话题分散，但其实在回答同一个问题：这波 AI 是不是泡沫？

高盛的答案很直接：至少现在还不是。他们指出，当前领跑生成式 AI 的美国科技巨头，平均市盈率约为 25，远低于互联网泡沫顶峰时的 52。而且这些公司已经高度盈利，现金储备、回报率都明显更健康。

同一时间，你看到的是另一种“投票”：
- 军事领域，Shield AI 融资 1.5 亿美元，估值 25 亿美元；
- 咨询行业，EY 投入 14 亿美元自研大模型，KPMG、Accenture 紧随其后。

这些都不是蹭热点的创业团队，而是对 ROI 极其敏感的组织。他们持续砸钱，说明 AI 正在从“讲故事”阶段，进入“算得过账”的阶段。

Stable Audio，正是这种转变在创意领域的一个缩影。

总结

如果你是 AI 从业者，Stable Audio 释放的信号很明确：下一个竞争焦点不在“能不能生成”，而在“能不能被用”。速度、版权清晰度、与其他工具的耦合度，正在变得比模型炫技更重要。

一个现实的行动建议是：别只盯着“完整作品”的替代，而要关注那些被忽略的中间环节——背景音、情绪层、快速原型。这些地方，AI 已经明显比人类更快、更便宜。

最后留一个判断题：当声音、画面、文本都能被一句话同时生成时，真正稀缺的，会不会反而是“知道该生成什么”的能力？

关键词： Stable Audio， AI音乐生成，多模态AI， Stability AI，生成式AI应用

事实核查备注： Stable Audio 免费版/付费版的时长与商用权限；AudioSparx 音频库规模（80万+）；95秒音频在 NVIDIA A100 上小于1秒生成的说法；视频发布时间为 2023-09-14；高盛关于AI股票非泡沫的报告日期与核心数据

返回文章列表