xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
在 Alchemy 负责产品的 Matias Castello 不是工程师出身,却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度:事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted,信息密度极高。
如果你还在把AI当成“更聪明的助手”,那你已经落后了。YC这期视频抛出的核心观点非常刺耳:真正的超级智能,不是用AI帮人干活,而是让公司本身变成一个会自我进化的智能体。这不是概念,而是已经在YC内部发生的事。
在这期 Latent Space 的对话中,DeepMind 的 Omar Sanseviero 抛出了一个足以让很多 AI 从业者重新思考路线的观点:开源模型的未来,不在于更大,而在于“更聪明地变小”。Gemma 4 的发布,只是表面,真正的变化发生在架构、部署方式和研究范式上。
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
当所有人都在卷向量数据库、Agent 框架和微调时,Google DeepMind 的 Paige 却在台上泼了一盆冷水:这些东西,迟早都会被模型本身吞噬。这场长达一小时的分享,不是产品发布,而是一份来自一线的行业预言。
这次 Google I/O,DeepMind 高管透露了一个被很多人忽略的信号:模型不再是主角,真正的主线是“智能体如何长期在线、持续干活”。从 Gemini 3.5 Flash 到 Omni,再到托管 Agent,Google 正在重写开发者与 AI 的关系。
如果你还把世界模型当成“更逼真的视频生成”,那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中,把 Google 真正押注的路线讲得异常直白:多模态只是起点,世界模型、可控模拟、Agent 与持续学习,才是下一轮分水岭。
Google I/O 刚结束,外界一片“AI 火力全开”的惊叹,但 Peter Yang 却给出了一个刺耳结论:产品太多,反而是战略问题。这不是一篇吹捧 Gemini 的文章,而是一份来自 AI 一线从业者的清醒诊断——以及 Google 真正不能输的三场 AI 战争。