TTS正在变成另一个LLM:Mistral科学家揭开语音模型的真相
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
电影《她》里的完美语音助手,几乎成了整个语音AI行业的精神图腾。但在这场演讲里,Neil Zeghidour几乎从头到尾都在说一件事:我们离那个时刻,还差得很远,而且真正的难点,和你想的不一样。
当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。
多数人还把语音 AI 当成配音工具时,ElevenLabs 的创始人已经在讨论另一件事:当“声音”成为 AI 的默认界面,整个 AI 产品形态都会被重写。这场在红杉资本的对话,透露了一个正在逼近的拐点。
当所有人都在讨论更大的模型、更贵的Token时,Google DeepMind在这场分享里反复强调了一件“反直觉”的事:真正能跑起来的AI,必须回到设备本身。从Gemma 4到端侧Agent,这不是性能妥协,而是一场架构转向。
大多数人还在比模型参数,Google DeepMind 却在公开课上反复强调一件反直觉的事:Agent 成败不在模型,而在“循环、工具和缓存”。这场从 API Key 到语音 Agent 的现场演示,暴露了下一代应用的真实门槛。
如果你还以为“做AI应用”等于调模型参数,这场来自Google DeepMind的演示会让你彻底改观。Paige Bailey用一小时,把多模态模型、AI Studio、世界模型和一键部署串成了一条几乎不用写代码的生产线。
在所有人都在追逐更大参数、更强算力时,Liquid AI 的 Maxime Labonne 反其道而行:专注 3.5 亿到 240 亿参数的小模型,并且明确说——小模型不是大模型的“缩水版”。这场分享,几乎逐条拆掉了从大模型时代继承下来的错误直觉。
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
当所有人都在追逐更大的语言模型时,语音AI却悄悄走在一条更难、更慢、也更接近“人”的路上。ElevenLabs 创始人 Mati Staniszewski 在 Stripe 的这场对谈里,几乎把语音AI的技术演进、数据真相和商业化底牌全摊开了。