从“像机器人”到让人起鸡皮疙瘩,ElevenLabs 如何把语音AI做到 110 亿美金

AI PM 编辑部 · 2026年02月06日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

语音合成做了300年,却一直差“临门一脚”。a16z 的这次对话里,ElevenLabs 创始人讲清了一件事:真正的突破不是模型参数,而是“有没有情绪”。这也是他们从0做到110亿美元估值的核心秘密。

从“像机器人”到让人起鸡皮疙瘩,ElevenLabs 如何把语音AI做到 110 亿美金

语音合成做了300年,却一直差“临门一脚”。a16z 的这次对话里,ElevenLabs 创始人讲清了一件事:真正的突破不是模型参数,而是“有没有情绪”。这也是他们从0做到110亿美元估值的核心秘密。

300年的失败史:语音AI真正的门槛不在“像”,而在“感觉”

视频一开场就把时间线拉得很长:从18世纪机械拟声,到20世纪早期的数字合成器,再到后来我们熟到不能再熟的 Siri。技术一次次进步,但问题始终没变——“它不像一个会让你产生情绪反应的人”。

ElevenLabs 团队给了一个极其关键的判断:语音合成真正的阈值,不是清晰度、不是自然度,而是有没有跨过‘让人产生情绪’那条线。你可以听得懂 Siri,但你不会被打动;你会接受导航提示,但不会相信它在“跟你说话”。

这是一个反直觉但非常重要的行业洞察:当语音成为接口,技术指标不再是主角,心理感受才是。谁能解决“感觉像人”,谁才配谈下一代人机交互。

语音将取代屏幕?这是一次比触屏更大的接口迁移

在 a16z 总部的对话中,创始人抛出了一个很重的判断:语音将成为继键盘、触屏之后,人与计算机的下一个基础接口

为什么?因为屏幕是“先学会再使用”,而语音是“天生就会”。当系统真正理解并输出自然语言时,技术第一次绕过了教育、文化和操作习惯的门槛。不会打字的人、不会用复杂 UI 的人、甚至跨语言和跨文化的人,都被拉进了同一个交互平面。

这里有一句值得反复琢磨的话:未来不是“所有产品都语音化”,而是那些被屏幕限制的场景,会被语音重新解锁。当接口成本无限接近于零,新的应用形态才会爆发。

灵感来自波兰电影院:ElevenLabs 并不是从技术出发

ElevenLabs 的起点并不在实验室,而是在波兰的电影院。

创始人回忆,他们小时候看外国电影,配音往往情绪错位、语气生硬,角色在哭,声音却像在念说明书。这种“体验割裂”成了最早的刺。

后来,他们把这个问题当成一个产品而不是论文来做。最早的版本发布后,用户数量迅速飙升,规模远超预期。这个细节很重要:需求不是被教育出来的,而是被压抑太久了

这也解释了为什么 ElevenLabs 能在极短时间内聚集大量创作者、开发者和普通用户——他们解决的不是“有没有 AI 语音”,而是“为什么以前的语音都不好用”。

产品哲学的关键:研究不是目的,体验才是放大器

从 Voice Design V3,到 Studio 3.0,再到音频、音效、音乐的多模型布局,ElevenLabs 的产品线扩张看似很快,但背后有一个高度一致的原则。

创始人的原话大意是:先判断研究能在哪些地方真正创造价值,再用产品把研究成果放大。不是“我们能做什么”,而是“用户在什么时候会感到惊艳”。

这也是他们很少沉迷炫技的原因。语音模型、音效模型、音乐模型并行发展,但目标只有一个:让声音具备“把人带走”的能力。不是更复杂,而是更有沉浸感。

对从业者来说,这是一个危险但真实的提醒:模型领先≠产品成功,真正的壁垒在“被反复使用”。

远程优先、全球招人:组织形态也是竞争力

当团队从两个人扩展到数十、上百人时,ElevenLabs 并没有走硅谷那条“必须线下”的老路。

他们选择了一个在当下仍然有争议的策略:全球范围内招最合适的人,而不是最方便的人。哪怕行业里对线下文化有强烈执念,他们依然坚持远程优先,并把招聘权力交给真正懂人的负责人。

结果是,这支团队的构成和视角,本身就高度多样化——而这恰恰是做“声音”和“情绪”产品所需要的。组织设计,在这里直接影响了产品上限。

总结

ElevenLabs 的故事,对 AI 从业者最大的启发并不是“语音还能值 110 亿美元”,而是:当技术进入深水区,胜负往往由体验和人性决定。如果你在做模型,问问自己它是否真的改变了用户感受;如果你在做产品,别只盯着参数表;如果你在创业,记住需求往往藏在那些被长期忽视的“不舒服”里。下一个接口级机会,可能已经在你每天听到却习以为常的声音中。


关键词: ElevenLabs, 语音AI, 文本转语音, 人机交互, AI产品

事实核查备注: 需要核查:1)ElevenLabs 110 亿美元估值是否为最新官方或媒体确认数据;2)视频中关于语音接口取代屏幕的原话表述;3)ElevenLabs 产品版本命名(Voice Design V3、Studio 3.0)的准确性;4)创始人波兰成长经历的具体细节是否完整呈现。