他用AI让雕像“打电话说话”,却意外揭开语音Agent的真正未来
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
很多人以为AI的价值在“更聪明”,但这支顶级赛车队证明:真正的胜负,藏在7秒的进站和0.1秒的决策里。OpenAI把模型从实验室推上赛道,第一次让AI直面时间、压力和不可逆的真实世界。
当所有人都在把最强的大模型推向云端,Alex Cheema 却在做一件反方向的事:让 Frontier AI 跑在你自己的硬件上。这场看似“逆潮流”的尝试,背后藏着对成本、控制权和 AI 未来形态的深刻判断。
Google I/O 刚结束,外界一片“AI 火力全开”的惊叹,但 Peter Yang 却给出了一个刺耳结论:产品太多,反而是战略问题。这不是一篇吹捧 Gemini 的文章,而是一份来自 AI 一线从业者的清醒诊断——以及 Google 真正不能输的三场 AI 战争。
Patrick Löber 在 Google DeepMind 的这场演讲,真正炸的不是“又一个多模态模型”,而是一句被很多人忽略的话:Any-to-Any 现在并不是一个模型,而是一种架构选择。这意味着,多模态 Agent 的玩法,已经彻底变了。
所有人都在盯着 token 消耗,但真正决定 AI 生死的指标,可能恰恰不是 token。本期播客里,一位长期投资 OpenAI、Anthropic 的投资人,抛出了几个让硅谷都不安的判断:token 是幻觉,agent 才是引擎,而真正的稀缺品正在从算力转向人的连接。
当所有人都在讨论如何“把 AI 做得更聪明”时,incident.io 的创始工程师却踩中了一个更残酷的现实:真正让 AI 产品崩溃的,从来不是模型能力,而是你根本不知道它为什么会这么回答。这场演讲讲的不是炫技,而是 AI 工程化里最容易被忽视、却最致命的一环。
几乎所有 AI 从业者都在用同一种方式做聊天,但真正拖垮体验的,恰恰是这套“行业默认”。这场演讲抛出一个刺耳结论:AI UX 崩坏,责任不在模型,而在你用错了连接方式。
如果你以为医疗AI的核心是模型有多大,那这期播客会直接打脸。Abridge 团队讲了一个完全不同的故事:真正难的不是“听懂”,而是“什么时候该听、什么时候该闭嘴”。他们正在用对话AI重构临床决策的底层逻辑。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。