语音AI离《她》还有多远？一位研究者泼下的三盆冷水

AI PM 编辑部 · 2026年05月09日 · 31 阅读 · AI/人工智能

语音AI

正在加载视频...

视频章节

电影《她》里的完美语音助手，几乎成了整个语音AI行业的精神图腾。但在这场演讲里，Neil Zeghidour几乎从头到尾都在说一件事：我们离那个时刻，还差得很远，而且真正的难点，和你想的不一样。

语音AI离《她》还有多远？一位研究者泼下的三盆冷水

电影《她》里的完美语音助手，几乎成了整个语音AI行业的精神图腾。但在这场演讲里，Neil Zeghidour几乎从头到尾都在说一件事：我们离那个时刻，还差得很远，而且真正的难点，和你想的不一样。

最残酷的现实：不是模型不够聪明，而是“根本跑不起来”

如果你以为语音AI的瓶颈还在模型能力，那这场演讲一开始就会让你清醒。Neil Zeghidour反复强调一个让人不太舒服的事实：真正卡住语音AI体验的，已经不是“理解力”，而是系统层面的延迟与可靠性。

他点出了一个很多从业者心里都明白、但很少公开说清楚的问题——当语音助手开始调用工具（tool calling），一切就变得不可控了。每一次调用，都会引入不可预测的延迟，而语音交互对延迟的容忍度，远低于文本。

换句话说，文字聊天里“等两秒再回”是可以接受的，但在语音里，这两秒足以让人产生不信任感。你会开始怀疑：它是不是没听懂？是不是卡住了？

这也是为什么，很多看起来惊艳的语音AI demo，只存在于演示视频里——它们被精心安排在极度安静的房间里，没有复杂环境，没有真正的工具调用，更没有现实世界的混乱。

为什么所有语音AI Demo 都在“安静的空房间”？

Neil 在演讲中抛出了一个几乎带着自嘲意味的观察：你注意过吗？几乎所有语音AI的演示视频，背景都安静得不像现实世界。

这不是巧合，而是一种技术妥协。现实世界的语音环境充满了噪声、打断、回声、多人同时说话，而一旦进入“speech-to-speech”的真实场景，所有问题都会被放大。

在文本世界里，模型可以“慢慢想”；但在语音世界里，模型必须边听、边想、边说，而且不能显得犹豫。这对系统架构提出了极高要求，也解释了为什么“语音到语音”依然是最难的一段。

Neil 直言：真正的挑战不在模型本身，而在于整条链路——从麦克风进来，到声音出去，中间每一个环节都可能成为灾难现场。

这也是为什么，当前很多语音AI产品在真实环境中体验骤降，而不是“稍微变差”。

本地化与隐私：规模化之前，先解决信任问题

在谈到可扩展性（scalability）时，Neil 把话题拉向了一个更现实的问题：隐私。

他指出一个常被忽略的事实——当语音AI真正变得“像人”时，用户才会开始真正说出隐私信息。而在这个阶段，如果所有数据都要上传云端，信任会立刻崩塌。

这也是为什么他们认为，未来的一部分语音AI能力，必须是本地的（local）。不仅是为了延迟，更是为了心理安全感。

“你会更愿意对一个知道数据不离开你设备的系统说话。”这句话背后，其实是对产品形态的深刻判断：技术能不能规模化，取决于用户是否愿意把真实生活交给它。

这也解释了他们为什么选择从底层系统入手，而不是单纯堆模型参数。

离《她》还有多远？也许不是一步，而是三次架构转折

整场演讲最重要的一点，反而不是某个具体产品，而是一种态度。

Neil 并不否认《她》式语音AI的吸引力，但他明确表示：“我们现在，显然还完全没到那一步。”

要真正接近那个体验，需要的不只是更大的模型，而是至少三件事同时发生：
- 可预测、低延迟的工具调用机制
- 能在真实噪声环境下稳定工作的语音链路
- 在隐私与性能之间取得平衡的本地化架构

他们的第一步，是从名为 Gradion Phonon 的基础组件开始。这不是终点，而是一块地基。

这或许不性感，但很现实。

总结

如果你正在做语音AI，这场演讲给了一个非常清醒的提醒：下一阶段的竞争，不在“谁的模型更像人”，而在“谁的系统更像产品”。延迟、可靠性、隐私，这些听起来不酷的问题，才是决定生死的地方。真正的《她》时刻，也许不会由一次模型突破带来，而是来自一次又一次对系统架构的重构。值得思考的是：你现在优化的，是演示效果，还是现实世界？

关键词：语音AI， Voice AI，低延迟，语音交互，系统架构

事实核查备注：需要核查：1）Neil Zeghidour 的具体身份与所属机构名称拼写；2）Gradium / Gradion / Gradian 的准确公司或项目名称；3）Gradion Phonon 是否为正式产品名称；4）演讲视频的实际时长，用于确认文章篇幅匹配度。

返回文章列表