语音不是功能,是入口:ElevenLabs 如何把 AI 拉进真实世界

AI PM 编辑部 · 2026年05月06日 · 35 阅读 · AI/人工智能

正在加载视频...

视频章节

多数人还把语音 AI 当成配音工具时,ElevenLabs 的创始人已经在讨论另一件事:当“声音”成为 AI 的默认界面,整个 AI 产品形态都会被重写。这场在红杉资本的对话,透露了一个正在逼近的拐点。

语音不是功能,是入口:ElevenLabs 如何把 AI 拉进真实世界

多数人还把语音 AI 当成配音工具时,ElevenLabs 的创始人已经在讨论另一件事:当“声音”成为 AI 的默认界面,整个 AI 产品形态都会被重写。这场在红杉资本的对话,透露了一个正在逼近的拐点。

一个反直觉的起点:不是模型指标,而是“人”的问题

在红杉这场对话里,Mati Staniszewski 并没有一上来就聊模型参数、延迟或 MOS 分数。他先说的是:他也喜欢折线图和柱状图,但 ElevenLabs 的故事,首先是一个“人”的故事。

这句话很不 Silicon Valley。它隐含的判断是:语音 AI 的核心瓶颈,已经不只是技术曲线,而是人与技术之间的摩擦——表达是否自然、互动是否有情绪、是否让人愿意“多说一句”。ElevenLabs 选择从这里切入,意味着他们并不满足于做一个更像人的 TTS,而是想解决“人是否愿意把声音交给 AI”这个更难的问题。

从“配音工具”到“前沿音频模型”,认知差正在拉开

Mati 提到,很多客户仍然通过非常狭窄的需求来理解 ElevenLabs:比如生成旁白、配音、内容本地化。但公司内部的定位,已经是“构建音频领域的前沿模型”。

这中间的认知差非常关键。工具思维关注的是:我能不能更快、更便宜地生成一段声音;模型思维关注的则是:声音这种模态,是否可以像文本一样,成为通用能力,被一步步“开放”出来。

一旦站在后一个视角,语音不再只是内容生产的末端,而是可以横向扩展到对话、音乐、代理、交互体验。这也解释了为什么他顺带提到:这种能力不仅限于语音,甚至可以跨到音乐等更复杂的音频形态。

语音 + Agent:AI 第一次看起来“真的在你身边”

当话题转向 voice agents,现场的气氛明显不一样了。原因很简单:这是多数人第一次意识到,AI Agent 真正可用的形态,可能不是一个聊天窗口。

文字 Agent 的问题在于,它要求人去适应机器;而语音 Agent 恰恰相反,它嵌入的是人类最自然的交互方式。你不用想提示词,不用打字,只是说话。

Mati 的判断很明确:把语音和 Agent 结合起来,很多过去“看起来不可能”的体验,在非常短的时间内就会变得可行。这并不是说技术已经完美,而是说,一旦交互摩擦足够低,人们会容忍 AI 的不完美。

“锯齿状智能”不是缺陷,而是设计前提

在问答环节,有人提到 Andreessen 之前说过的“jagged intelligence”——AI 在某些点上极聪明,在另一些点上却很笨。

Mati 的回应并不是试图反驳这个判断,而是默认它的存在,并继续往下推:既然智能是锯齿状的,那就要通过体验设计,让这些不连续的能力对用户来说“可用、可理解、可接受”。

语音在这里再次显现出优势。人类本来就习惯于和不完美的对象交流:人会停顿、会出错、会反问。相比之下,一个会犹豫、会澄清的语音 Agent,反而比一个偶尔答非所问的文本框,更容易被原谅。

总结

这场对话真正值得 AI 从业者反复咀嚼的,并不是 ElevenLabs 的具体产品,而是一个更底层的判断:下一代 AI 的竞争焦点,正在从“谁更聪明”转向“谁更像一个可以共处的对象”。

如果你在做模型、Agent 或 AI 应用,有三个直接的启发:第一,不要低估交互方式对能力释放的影响;第二,把语音当成平台级能力,而不是 UI 装饰;第三,接受 AI 的不完美,并围绕这种不完美去设计体验。

一个值得思考的问题是:当用户开始用“说话”而不是“输入”来调用智能时,你的产品,还成立吗?


关键词: ElevenLabs, 语音AI, AI Agent, 人机交互, 前沿模型

事实核查备注: 需核查:1)视频具体时长以确认文章分量;2)Mati Staniszewski 在视频中关于“frontier models for audio”的原话表述;3)关于能力“很快可行”的时间表是否有更明确描述;4)是否明确提及音乐音频能力的扩展场景。