从“像机器人”到让人起鸡皮疙瘩，ElevenLabs 如何把语音AI做到 110 亿美金

AI PM 编辑部 · 2026年02月06日 · 11 阅读 · AI/人工智能

文本转语音语音AI 对话AI ElevenLabs

正在加载视频...

视频章节

语音合成做了300年，却一直差“临门一脚”。a16z 的这次对话里，ElevenLabs 创始人讲清了一件事：真正的突破不是模型参数，而是“有没有情绪”。这也是他们从0做到110亿美元估值的核心秘密。

从“像机器人”到让人起鸡皮疙瘩，ElevenLabs 如何把语音AI做到 110 亿美金

语音合成做了300年，却一直差“临门一脚”。a16z 的这次对话里，ElevenLabs 创始人讲清了一件事：真正的突破不是模型参数，而是“有没有情绪”。这也是他们从0做到110亿美元估值的核心秘密。

300年的失败史：语音AI真正的门槛不在“像”，而在“感觉”

视频一开场就把时间线拉得很长：从18世纪机械拟声，到20世纪早期的数字合成器，再到后来我们熟到不能再熟的 Siri。技术一次次进步，但问题始终没变——“它不像一个会让你产生情绪反应的人”。

ElevenLabs 团队给了一个极其关键的判断：语音合成真正的阈值，不是清晰度、不是自然度，而是有没有跨过‘让人产生情绪’那条线。你可以听得懂 Siri，但你不会被打动；你会接受导航提示，但不会相信它在“跟你说话”。

这是一个反直觉但非常重要的行业洞察：当语音成为接口，技术指标不再是主角，心理感受才是。谁能解决“感觉像人”，谁才配谈下一代人机交互。

语音将取代屏幕？这是一次比触屏更大的接口迁移

在 a16z 总部的对话中，创始人抛出了一个很重的判断：语音将成为继键盘、触屏之后，人与计算机的下一个基础接口。

为什么？因为屏幕是“先学会再使用”，而语音是“天生就会”。当系统真正理解并输出自然语言时，技术第一次绕过了教育、文化和操作习惯的门槛。不会打字的人、不会用复杂 UI 的人、甚至跨语言和跨文化的人，都被拉进了同一个交互平面。

这里有一句值得反复琢磨的话：未来不是“所有产品都语音化”，而是那些被屏幕限制的场景，会被语音重新解锁。当接口成本无限接近于零，新的应用形态才会爆发。

灵感来自波兰电影院：ElevenLabs 并不是从技术出发

ElevenLabs 的起点并不在实验室，而是在波兰的电影院。

创始人回忆，他们小时候看外国电影，配音往往情绪错位、语气生硬，角色在哭，声音却像在念说明书。这种“体验割裂”成了最早的刺。

后来，他们把这个问题当成一个产品而不是论文来做。最早的版本发布后，用户数量迅速飙升，规模远超预期。这个细节很重要：需求不是被教育出来的，而是被压抑太久了。

这也解释了为什么 ElevenLabs 能在极短时间内聚集大量创作者、开发者和普通用户——他们解决的不是“有没有 AI 语音”，而是“为什么以前的语音都不好用”。

产品哲学的关键：研究不是目的，体验才是放大器

从 Voice Design V3，到 Studio 3.0，再到音频、音效、音乐的多模型布局，ElevenLabs 的产品线扩张看似很快，但背后有一个高度一致的原则。

创始人的原话大意是：先判断研究能在哪些地方真正创造价值，再用产品把研究成果放大。不是“我们能做什么”，而是“用户在什么时候会感到惊艳”。

这也是他们很少沉迷炫技的原因。语音模型、音效模型、音乐模型并行发展，但目标只有一个：让声音具备“把人带走”的能力。不是更复杂，而是更有沉浸感。

对从业者来说，这是一个危险但真实的提醒：模型领先≠产品成功，真正的壁垒在“被反复使用”。

远程优先、全球招人：组织形态也是竞争力

当团队从两个人扩展到数十、上百人时，ElevenLabs 并没有走硅谷那条“必须线下”的老路。

他们选择了一个在当下仍然有争议的策略：全球范围内招最合适的人，而不是最方便的人。哪怕行业里对线下文化有强烈执念，他们依然坚持远程优先，并把招聘权力交给真正懂人的负责人。

结果是，这支团队的构成和视角，本身就高度多样化——而这恰恰是做“声音”和“情绪”产品所需要的。组织设计，在这里直接影响了产品上限。

总结

ElevenLabs 的故事，对 AI 从业者最大的启发并不是“语音还能值 110 亿美元”，而是：当技术进入深水区，胜负往往由体验和人性决定。如果你在做模型，问问自己它是否真的改变了用户感受；如果你在做产品，别只盯着参数表；如果你在创业，记住需求往往藏在那些被长期忽视的“不舒服”里。下一个接口级机会，可能已经在你每天听到却习以为常的声音中。

关键词： ElevenLabs，语音AI，文本转语音，人机交互， AI产品

事实核查备注：需要核查：1）ElevenLabs 110 亿美元估值是否为最新官方或媒体确认数据；2）视频中关于语音接口取代屏幕的原话表述；3）ElevenLabs 产品版本命名（Voice Design V3、Studio 3.0）的准确性；4）创始人波兰成长经历的具体细节是否完整呈现。

返回文章列表