xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
这不是一场普通的论文分享。YC Paper Club 首秀抛出一个反直觉观点:推理不该被当成成本中心,而是模型能力本身。围绕快速推理、Speculative Decoding,以及来自 Google DeepMind 的研究,这场讨论给了从业者一个重新设计 AI 系统的视角。
当所有人都在把最强的大模型推向云端,Alex Cheema 却在做一件反方向的事:让 Frontier AI 跑在你自己的硬件上。这场看似“逆潮流”的尝试,背后藏着对成本、控制权和 AI 未来形态的深刻判断。
很多人以为,代码模型的上限取决于参数规模。但 Cursor 和 Fireworks 在这期播客里反复强调:真正决定 RL 效果的,是你能不能造出一个“模型没法作弊”的世界。Composer 2 的训练故事,几乎是对整个 AI 应用圈的一次提醒。
如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。
如果你还把世界模型当成“更逼真的视频生成”,那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中,把 Google 真正押注的路线讲得异常直白:多模态只是起点,世界模型、可控模拟、Agent 与持续学习,才是下一轮分水岭。
如果你还在“手写代码”,他会直截了当地告诉你:你已经落后了。在这期播客里,Railway 的 Jake Cooper 用一连串反直觉的判断,解释了什么是 Agent-Native Cloud、为什么基础设施公司开始像模型公司一样思考,以及开发者正在被 AI 从流程中“移除”。
所有人都在盯着 token 消耗,但真正决定 AI 生死的指标,可能恰恰不是 token。本期播客里,一位长期投资 OpenAI、Anthropic 的投资人,抛出了几个让硅谷都不安的判断:token 是幻觉,agent 才是引擎,而真正的稀缺品正在从算力转向人的连接。
如果你还在纠结用 GPT-4 还是更大的模型,IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案:真正决定 AI 能不能落地的,不是模型能力,而是 Harness。这场 18 分钟的演讲,把无数工程师踩过的坑一次性摊在台面上。
这期 TBPN 一上来就抛出猛料:Cerebras 的 IPO 不是“还不错”,而是“好得离谱”。更反直觉的是,市场追捧的理由并不在训练,而在推理。Semi-Analysis 的深度拆解、OpenAI 的态度变化,以及 VC 圈的公开内斗,把 AI 基础设施的真实博弈摊在了台面上。