他用AI让雕像“打电话说话”,却意外揭开语音Agent的真正未来
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
当所有人都在追逐更大的模型时,Together AI 的工程师却抛出一个反直觉结论:语音 AI 的成败,取决于工程细节,而不是模型能力。这场分享把“好用的语音 Agent”为何如此之难,说得异常直白。
在 Alchemy 负责产品的 Matias Castello 不是工程师出身,却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度:事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted,信息密度极高。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
当所有产品都在往聊天框里挤时,Luke Harries却在台上泼了一盆冷水:纯聊天的AI,不够未来。真正的拐点,是给Agent一副“会听、会打断、会共情”的声音。这不是炫技,而是一次产品形态的升级。
Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。
当所有人都在追逐更大的语言模型时,语音AI却悄悄走在一条更难、更慢、也更接近“人”的路上。ElevenLabs 创始人 Mati Staniszewski 在 Stripe 的这场对谈里,几乎把语音AI的技术演进、数据真相和商业化底牌全摊开了。
如果你还以为AI赛道的主角只有OpenAI,这条消息可能会让你愣住:Anthropic的年化收入已经冲到30亿美元,并在统计口径上反超OpenAI。更关键的是,这不是一次偶然爆发,而是一整套商业、算力和客户结构同时拐点的结果。
当大多数人还在比拼模型参数和准确率时,这场关于 VoiceOps 的演讲抛出一个更残酷的现实:真正拖垮语音AI落地的,不是模型不够强,而是整个音频工作流“太痛苦”。如果你在做语音识别或生成式AI,这是一篇会让你重新审视架构设计的文章。
在 Latent Space 的这期访谈里,Mistral 团队抛出了一个让很多企业不舒服的观点:你用得越多闭源模型,手里沉淀多年的私有数据价值就越被浪费。同时,他们正式发布了自家的语音生成模型 Voxal(或 Voxtral)TTS,并罕见地深入讲清了音频模型在架构、token 与部署层面的真实难题。