xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
很多团队以为“主权AI”就是把API换成自托管模型,但真正动手后才发现:最先失控的不是效果,而是架构、流程和工程心智。来自 deepset 的一线经验,讲清楚主权约束下,AI系统到底会在哪些地方坏掉。
文本转语音不再是“把字念出来”那么简单。Mistral 的 Samuel Humeau 直接抛出一个行业级判断:今天最强的 TTS,正在被重构成“像大语言模型一样”的系统,而且这一变化,正是实时语音 Agent 爆发的前提。
曾经被嘲笑“又慢又没常识”的 Vision Transformer,如今却成了视觉领域的绝对主角。Roboflow 研究负责人 Isaac Robinson 用一场演讲给出答案:不是 ViT 变聪明了,而是预训练、算力和 LLM 基础设施把游戏规则彻底改写了。
当所有人都在为电价、土地和散热发愁时,Starcloud 的 CEO 直接给出一个反直觉答案:未来最便宜的算力在太空。更夸张的是,他们已经把 NVIDIA H100 送上轨道,还真的跑起了模型。
当所有人都在疯狂堆 GPU、比拼算力规模时,OpenAI 在最新一期播客里抛出一个反直觉结论:真正卡住 AI Scaling 的,不是芯片不够快,而是网络不够“聪明”。他们甚至为此重新发明了一种数据中心网络方式,并准备把它变成行业标准。
我们都在追更大的模型、更快的训练,却忽略了一个更“脏更累”的问题:模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑,揭开了小模型推理基础设施的巨大空白。
这期 TBPN 把几条原本不该放在一起的线索硬生生拧成了一股趋势:Karpathy 在红杉谈 Software 3.0,vibe coding 开始吞噬传统开发;GameStop 试图吞下 eBay;而另一边,XAI 的 GPU 只跑到 11%。如果你在做 AI,这些碎片拼起来,会改变你对“下一代计算”和“创业窗口”的判断。
当所有人都在盯着参数规模时,这场对话却反其道而行:LLM 的成败,早就被 batch size、注意力稀疏性、机架拓扑和 KV cache 这些“底层细节”锁死了。Reiner Pope 用一小时把训练与推理背后的数学账和硬件账,一次性摊在桌面上。