TTS正在变成另一个LLM:Mistral科学家揭开语音模型的真相
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
如果你以为这周AI圈只有模型参数的老故事,那你错了。一个关于Elon、Anthropic和SpaceX算力的意外组合,正在把焦点从“谁的模型更大”推向“谁能把Agent真正跑起来”。这不仅是一次Dev Day,更像一次路线宣言。
如果你还以为黑客需要天才少年和无数个不眠之夜,那你已经落后了。XBOW 的创始人 Oege de Moor 在红杉的一场演讲中,展示了一个几乎没人准备好的现实:完全自主的 AI 黑客,已经在真实世界里,击败了人类顶级安全研究员。
我们都在追更大的模型、更快的训练,却忽略了一个更“脏更累”的问题:模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑,揭开了小模型推理基础设施的巨大空白。
当几乎所有人还在讨论更大的模型、更长的上下文窗口时,Demis Hassabis 在 YC 的舞台上泼了一盆冷水:这些都不足以通向 AGI。他直言,真正关键的问题至今无人解决,而且可能会在你正在做的创业项目中途突然出现。
如果你还以为“做AI应用”等于调模型参数,这场来自Google DeepMind的演示会让你彻底改观。Paige Bailey用一小时,把多模态模型、AI Studio、世界模型和一键部署串成了一条几乎不用写代码的生产线。
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
GPT‑5.5(内部代号 Spud)终于来了,但它没有用“智商碾压”震撼所有人。恰恰相反,这次测试最反直觉的发现是:你几乎感觉不到它变了,可一旦算清成本、放进真实工作流,它可能正在悄悄改变 AI 从业者的竞争方式。
当所有排行榜都在狂飙,Peter Gostev却当众泼了一盆冷水:模型变强了,但在“拒绝胡扯”这件事上,进步几乎停滞。更残酷的是,新模型有时还不如小模型。这场演讲用一个看似荒谬的基准,戳穿了我们对AI能力的集体幻觉。
一次凌晨2点到6点的对话,让小米大模型负责人罗福莉彻底改观:AI 已经不只是“能聊”,而是开始替人工作、改变研究节奏。OpenClaw 发布后,她意识到,一个新的技术范式其实已经悄悄发生。