xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
大模型已经能一口气生成成千上万行代码,但这真的等于“企业级可用”吗?在这场演讲中,Sonar 的 Prasenjit Sarkar 用评测数据、排行榜和工程实践给 AI 工程师泼了一盆冷水:问题不在“能不能写”,而在“敢不敢用到生产环境”。
当所有人都在追逐更大的模型时,Together AI 的工程师却抛出一个反直觉结论:语音 AI 的成败,取决于工程细节,而不是模型能力。这场分享把“好用的语音 Agent”为何如此之难,说得异常直白。
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
卖掉上一家公司后,Josh Pigford没有组团队、没有写长规划,而是一个人并行做5款AI产品。他最反直觉的做法是:用大模型互相“挑刺”,最快24小时上线。更狠的是,他认为“做太久才发布”本身就是创业的大坑。
在DeepMind内部,最资深的工程师也频频被AI Agent“折磨”。Gemini负责人Philipp Schmid用10分钟讲清一个残酷事实:做Agent最难的,不是模型,而是你必须放弃过去十年赖以成功的软件工程直觉。
在 Alchemy 负责产品的 Matias Castello 不是工程师出身,却用 AI 把“个人生产力”和“团队交付速度”推到一个反直觉的新高度:事故能被提前抓住、原本一年半的项目一周完成、甚至在 Apple Watch 上用语音派发编程任务。这期 Builders Unscripted,信息密度极高。
当大多数机器人还停留在“展示橱窗”里,Hugging Face 却丢出一个反直觉的产品:300美元、开源、专门给你拆来改的机器人 Reachy Mini。这场分享不只是秀硬件,而是在重新回答一个问题——为什么今天的 AI 这么强,机器人却还这么“陌生”?
如果你还在纠结“AI是不是泡沫”,a16z已经在讨论更残酷的问题:当OpenAI和Anthropic的收入增长速度超过Meta、Google、Microsoft,真正的分水岭不是技术,而是谁能活下来并捕获价值。这一期节目,给了一个极其反直觉却异常现实的答案。
如果你还以为生物AI的未来取决于更多先验知识和精巧特征工程,这期播客会让你坐立不安。Alex Rives 在 Latent Space 上抛出一个极具争议的判断:蛋白质世界,正在重演语言模型走过的“Bitter Lesson”。而且,这一次,代价更高,回报也更残酷。