他用AI让雕像“打电话说话”,却意外揭开语音Agent的真正未来
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
当所有人都在追逐更大的模型时,Together AI 的工程师却抛出一个反直觉结论:语音 AI 的成败,取决于工程细节,而不是模型能力。这场分享把“好用的语音 Agent”为何如此之难,说得异常直白。
当大多数机器人还停留在“展示橱窗”里,Hugging Face 却丢出一个反直觉的产品:300美元、开源、专门给你拆来改的机器人 Reachy Mini。这场分享不只是秀硬件,而是在重新回答一个问题——为什么今天的 AI 这么强,机器人却还这么“陌生”?
一个看似普通的硬件黑客演示,却意外揭示了 AI Agent 的真正威力:不是写代码更快,而是把“人类级探索”自动化。ElevenLabs 的 Boris Starkov 用 Claude Code 逆向了一台 Viking VOIP 电话,过程比结果更震撼。
如果你觉得 AI 的变化是“慢慢来的”,那这周可能会彻底打脸。不是某个模型发布、也不是某家公司融资,而是一种更难描述、却更真实的感觉:整个 AI 行业,集体进入了加速态。本期 AI Daily Brief,用一周的碎片拼出了一个信号极强的趋势。
Patrick Löber 在 Google DeepMind 的这场演讲,真正炸的不是“又一个多模态模型”,而是一句被很多人忽略的话:Any-to-Any 现在并不是一个模型,而是一种架构选择。这意味着,多模态 Agent 的玩法,已经彻底变了。
如果你还把语音 AI 当成“能说话的聊天机器人”,那这场 Build Hour 你一定得补课。OpenAI 用 GPT‑Realtime‑2 展示的,不是模型参数的升级,而是一种全新的实时交互范式:语音、情绪、界面、控制权,第一次被揉成一个整体。
如果你只把这期节目当作“新闻拼盘”,你就错过了真正的主线:全球AI产业的权力、算力与话语权,正在同时在北京、太空和数据中心里重组。从特朗普与习近平的会面,到黄仁勋的皮衣,再到SpaceX和Google把服务器送上轨道,这不是巧合,而是一张正在收紧的网。
几乎所有公司都在做 GenAI,但 95% 的项目连生产环境都进不去。前 Falcon 核心成员、Adaptive ML 联合创始人 Alessandro Cappelli 给出一个反直觉答案:问题不在模型、不在算力,而在你没用强化学习。
这是一场长达4小时的深度访谈,但真正炸场的只有一句话:AI行业已经不需要个人英雄主义。曾在Anthropic与Gemini训练模型的姚舜宇,用自己的路径、判断与犹豫,拆解了模型能力、应用创业、组织文化与个人选择的真实现状。