xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
大多数人以为代码补全的未来在更大的模型,但 Zed 团队走了相反的路:用一个小模型,盯住“你下一次会怎么改代码”。更反直觉的是,它的训练数据不是标注出来的,而是你每天真实的编辑行为。Ben Kunkle 用一次演讲,拆开了这个几乎没人公开讲过的生产级训练流程。
当科技圈还在为模型参数、算力集群和融资规模兴奋时,教宗的一份通谕却让AI行业集体愣住:如果效率正在取代人类尊严,我们真的走对方向了吗?这期《AI Daily Brief》把Anthropic、DeepSeek、Grok的最新进展,和一场来自宗教世界的“价值拷问”放在同一张桌子上。
很多人以为,代码模型的上限取决于参数规模。但 Cursor 和 Fireworks 在这期播客里反复强调:真正决定 RL 效果的,是你能不能造出一个“模型没法作弊”的世界。Composer 2 的训练故事,几乎是对整个 AI 应用圈的一次提醒。
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
当代码生成从每秒50个Token飙到1200个,真正的瓶颈不再是模型,而是人。Cerebras的Sarah Chieng在这场演讲中抛出一个反直觉观点:模型越快,开发者越要“慢”。否则,我们只是在用20倍的速度制造技术债。
很多团队以为“主权AI”就是把API换成自托管模型,但真正动手后才发现:最先失控的不是效果,而是架构、流程和工程心智。来自 deepset 的一线经验,讲清楚主权约束下,AI系统到底会在哪些地方坏掉。
所有人都在盯着 token 消耗,但真正决定 AI 生死的指标,可能恰恰不是 token。本期播客里,一位长期投资 OpenAI、Anthropic 的投资人,抛出了几个让硅谷都不安的判断:token 是幻觉,agent 才是引擎,而真正的稀缺品正在从算力转向人的连接。
AlphaGo 曾被认为是只有顶级实验室才能复制的奇迹,但 Eric Jang 在播客里抛出一个近乎挑衅的说法:今天,一个人、几千美元算力,就能从零“重建”它。更重要的不是算力,而是那套反直觉的思想结构。
如果说 DALL·E 只是“能画”,那 OpenAI 最新一代图像模型已经开始“能干活”了。在最新一期 OpenAI Podcast 中,研究员和产品负责人罕见地同时承认:这是一次范式跃迁,而不是常规升级。为什么他们敢用“文艺复兴”来形容?这期播客给出了非常具体的答案。