Google抢跑OpenAI的那一刻,语音AI的胜负手已经变了
几个月前,所有人还在等OpenAI的“高级语音模式”全面上线;几个月后,真正完成全量发布的却是Google。Gemini Live的推出,不只是一次功能更新,而是一次关于AI形态、平台控制力和未来入口的反击战。
几个月前,所有人还在等OpenAI的“高级语音模式”全面上线;几个月后,真正完成全量发布的却是Google。Gemini Live的推出,不只是一次功能更新,而是一次关于AI形态、平台控制力和未来入口的反击战。
如果你今天的时间有限,只记住一句话:OpenAI 可能真的要发布一个“会思考”的新模型了,但围绕它的喧嚣,比模型本身更值得警惕。Strawberry/Q*、神秘爆料账号、Sam Altman 的暧昧互动,以及与 Google 正面撞车的发布时间,让这场风暴成了 AI 圈的集体情绪测试。
过去几个月,AI 的进化不像升级,更像“换物种”。ChatGPT 终于上线被反复跳票的高级语音模式,第一次让人觉得:它不是在“回答”,而是在“对话”。与此同时,Midjourney 6.1 几乎抹平了 AI 图像与摄影之间的界线。这两件事放在一起看,释放出一个危险又兴奋的信号:多模态,已经进入真实可用阶段。
苹果被逼着“表态AI”,却又在关键时刻选择踩刹车;演员因AI罢工、数据被悄悄拿去训练、假声音冲击选举……这期AI新闻把一个残酷现实摆到台前:AI跑得越快,社会越跟不上。
Y Combinator在《Tarpit Ideas: The Sequel》中重新审视“创意泥潭”。这不是一份坏点子清单,而是一套判断方法:为什么有些想法总让人着迷却反复失败,以及为什么AI正在让部分经典泥潭第一次出现裂缝。
在 Figma Config 2024 的舞台上,一个会讲笑话、会写诗、还能害羞的火箭玩具登场了。但真正让台下的 AI 从业者安静下来的,不是它有多聪明,而是它背后那套“为孩子设计的 AI 安全系统”。
当整个行业还在讨论更强的模型、更快的算力,Humane 在 Figma Config 2024 抛出一个刺耳的判断:问题不在 AI,而在“屏幕”本身。这场 30 分钟的演讲,讲清了为什么下一代 AI 产品,必须先抛弃我们习以为常的交互方式。
不是实验,不是噱头,而是一次真实上线的“AI规模化应用”。NBC宣布:巴黎奥运会期间,你听到的解说,可能不是真人,而是AI版的传奇解说员Al Michaels。这背后,藏着生成式AI真正进入主流世界的关键信号。
如果你还盯着参数规模和榜单排名,这一周的AI发布可能会让你错过真正的信号:生成式AI的战场,正在从“谁更聪明”转向“谁更好用”。从Claude的Projects、ChatGPT的Mac常驻入口,到Figma把AI塞进设计工作流,这是一周足以改变你工作方式的密集更新。
这期 No Priors 对话了 Cartesia 联合创始人 Karan Goel 与 Albert Gu,讲述他们为何挑战 Transformer 架构,并将 SSM 等研究成果带入实时语音产品。文章聚焦他们的技术判断、创业动机,以及低延迟语音 AI 的真实落地方向。