TTS正在变成另一个LLM:Mistral科学家揭开语音模型的真相
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。
当大多数公司还在纠结“要不要用 AI”,Airbnb 已经悄悄把 60% 的代码交给了 AI 写。但 Brian Chesky 在这期访谈里抛出的真正炸点,并不是效率提升,而是:AI 正在重塑“创始人模式”、消费者产品形态,以及下一代设计师的生存方式。
曾经被嘲笑“又慢又没常识”的 Vision Transformer,如今却成了视觉领域的绝对主角。Roboflow 研究负责人 Isaac Robinson 用一场演讲给出答案:不是 ViT 变聪明了,而是预训练、算力和 LLM 基础设施把游戏规则彻底改写了。
你以为Agent不聪明,是模型不够强?Leonie Monigatti在这场工作坊里抛出一个反直觉结论:Context Engineering里,真正决定成败的不是Prompt,而是Search。更残酷的是,80%的问题都出在这里。
大多数人还在教 AI 怎么多写点代码时,Michael Arnaldi 做了一件更狠的事:先给 AI 立规矩。这场关于 Vibe Engineering 的工作坊,核心不是更聪明的模型,而是如何用“Effect + 规则”让 AI Agent 不犯低级错、持续产出可维护代码。
如果你还以为黑客需要天才少年和无数个不眠之夜,那你已经落后了。XBOW 的创始人 Oege de Moor 在红杉的一场演讲中,展示了一个几乎没人准备好的现实:完全自主的 AI 黑客,已经在真实世界里,击败了人类顶级安全研究员。
Ryan Cohen公开提出以每股125美元收购eBay,市场第一反应是“又一个激进资本故事”。但在这场长访谈里,他反复谈到的不是财务模型,而是效率、信任和AI。这不是一次普通并购,而是一场围绕平台、数据与执行力的豪赌。
当大多数人还在讨论“哪个API更强”时,这场工作坊直接把话说透:你完全可以在本地,从零开始,亲手训练一个大语言模型。没有云算力神话,没有巨头资源,只有最朴素、也最容易被忽略的四个核心模块。
把AI代理接入聊天、邮箱、知识库、自动化运维,甚至在你睡觉时替你“整理大脑”——听起来像失控的开始。但Radek Sienkiewicz给出的结论恰恰相反:真正危险的不是把控制权交给AI,而是一次性交出去。这场分享讲清了一个AI从业者最该学会的能力:如何和代理建立“长期信任关系”。