语音AI离《她》还有多远?一位研究者泼下的三盆冷水

AI PM 编辑部 · 2026年05月09日 · 31 阅读 · AI/人工智能

正在加载视频...

视频章节

电影《她》里的完美语音助手,几乎成了整个语音AI行业的精神图腾。但在这场演讲里,Neil Zeghidour几乎从头到尾都在说一件事:我们离那个时刻,还差得很远,而且真正的难点,和你想的不一样。

语音AI离《她》还有多远?一位研究者泼下的三盆冷水

电影《她》里的完美语音助手,几乎成了整个语音AI行业的精神图腾。但在这场演讲里,Neil Zeghidour几乎从头到尾都在说一件事:我们离那个时刻,还差得很远,而且真正的难点,和你想的不一样。

最残酷的现实:不是模型不够聪明,而是“根本跑不起来”

如果你以为语音AI的瓶颈还在模型能力,那这场演讲一开始就会让你清醒。Neil Zeghidour反复强调一个让人不太舒服的事实:真正卡住语音AI体验的,已经不是“理解力”,而是系统层面的延迟与可靠性

他点出了一个很多从业者心里都明白、但很少公开说清楚的问题——当语音助手开始调用工具(tool calling),一切就变得不可控了。每一次调用,都会引入不可预测的延迟,而语音交互对延迟的容忍度,远低于文本。

换句话说,文字聊天里“等两秒再回”是可以接受的,但在语音里,这两秒足以让人产生不信任感。你会开始怀疑:它是不是没听懂?是不是卡住了?

这也是为什么,很多看起来惊艳的语音AI demo,只存在于演示视频里——它们被精心安排在极度安静的房间里,没有复杂环境,没有真正的工具调用,更没有现实世界的混乱。

为什么所有语音AI Demo 都在“安静的空房间”?

Neil 在演讲中抛出了一个几乎带着自嘲意味的观察:你注意过吗?几乎所有语音AI的演示视频,背景都安静得不像现实世界。

这不是巧合,而是一种技术妥协。现实世界的语音环境充满了噪声、打断、回声、多人同时说话,而一旦进入“speech-to-speech”的真实场景,所有问题都会被放大。

在文本世界里,模型可以“慢慢想”;但在语音世界里,模型必须边听、边想、边说,而且不能显得犹豫。这对系统架构提出了极高要求,也解释了为什么“语音到语音”依然是最难的一段。

Neil 直言:真正的挑战不在模型本身,而在于整条链路——从麦克风进来,到声音出去,中间每一个环节都可能成为灾难现场。

这也是为什么,当前很多语音AI产品在真实环境中体验骤降,而不是“稍微变差”。

本地化与隐私:规模化之前,先解决信任问题

在谈到可扩展性(scalability)时,Neil 把话题拉向了一个更现实的问题:隐私。

他指出一个常被忽略的事实——当语音AI真正变得“像人”时,用户才会开始真正说出隐私信息。而在这个阶段,如果所有数据都要上传云端,信任会立刻崩塌。

这也是为什么他们认为,未来的一部分语音AI能力,必须是本地的(local)。不仅是为了延迟,更是为了心理安全感。

“你会更愿意对一个知道数据不离开你设备的系统说话。”这句话背后,其实是对产品形态的深刻判断:技术能不能规模化,取决于用户是否愿意把真实生活交给它。

这也解释了他们为什么选择从底层系统入手,而不是单纯堆模型参数。

离《她》还有多远?也许不是一步,而是三次架构转折

整场演讲最重要的一点,反而不是某个具体产品,而是一种态度。

Neil 并不否认《她》式语音AI的吸引力,但他明确表示:“我们现在,显然还完全没到那一步。”

要真正接近那个体验,需要的不只是更大的模型,而是至少三件事同时发生:
- 可预测、低延迟的工具调用机制
- 能在真实噪声环境下稳定工作的语音链路
- 在隐私与性能之间取得平衡的本地化架构

他们的第一步,是从名为 Gradion Phonon 的基础组件开始。这不是终点,而是一块地基。

这或许不性感,但很现实。

总结

如果你正在做语音AI,这场演讲给了一个非常清醒的提醒:下一阶段的竞争,不在“谁的模型更像人”,而在“谁的系统更像产品”。延迟、可靠性、隐私,这些听起来不酷的问题,才是决定生死的地方。真正的《她》时刻,也许不会由一次模型突破带来,而是来自一次又一次对系统架构的重构。值得思考的是:你现在优化的,是演示效果,还是现实世界?


关键词: 语音AI, Voice AI, 低延迟, 语音交互, 系统架构

事实核查备注: 需要核查:1)Neil Zeghidour 的具体身份与所属机构名称拼写;2)Gradium / Gradion / Gradian 的准确公司或项目名称;3)Gradion Phonon 是否为正式产品名称;4)演讲视频的实际时长,用于确认文章篇幅匹配度。