xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。
当所有人都在给 AI 代理塞更多 API Key 时,Remy Guercio 抛出了一个反直觉的想法:如果根本不发 Key 呢?这场来自 Tailscale 的分享,把“沙盒”从进程和容器,直接推到了网络层,给 AI 安全打开了一条全新的路。
Demis Hassabis已经站上科学与商业的顶峰,但他的传记作者却在播客里透露:真正困扰他的,并不是技术难题,而是几次“当时看起来很合理、事后却改变命运”的选择。这期对话,罕见地拆开了DeepMind、权力、理想主义与现实之间的张力。
如果有一天,你在博物馆里拍下一尊雕像,30秒后它给你打来电话,这不是科幻,而是 ElevenLabs 的一次真实实验。Joe Reeve 用一个“和雕像聊天”的小应用,讲清了当下语音 AI、Agent 和多模态体验中最被低估、也最关键的变化。
Anthropic 刚发布 Opus 4.8,就被称为“世界最强模型”,但视频作者 Riley Brown 花了3个小时对比后,却把焦点转向了另一件事:OpenAI Codex 的更新,正在悄悄改变 AI Agent 的玩法。这不是一次简单的模型对比,而是一场关于“未来怎么用 AI”的分水岭。
大模型已经能一口气生成成千上万行代码,但这真的等于“企业级可用”吗?在这场演讲中,Sonar 的 Prasenjit Sarkar 用评测数据、排行榜和工程实践给 AI 工程师泼了一盆冷水:问题不在“能不能写”,而在“敢不敢用到生产环境”。
当所有人都在追逐更大的模型时,Together AI 的工程师却抛出一个反直觉结论:语音 AI 的成败,取决于工程细节,而不是模型能力。这场分享把“好用的语音 Agent”为何如此之难,说得异常直白。
我们总以为更聪明的模型意味着更好的 Agent,但 Steven Willmott 在这场演讲里直接打脸:模型越大,可能越危险。真正的问题不是“能力够不够”,而是——你到底有没有说清楚它该做什么、不该做什么。
卖掉上一家公司后,Josh Pigford没有组团队、没有写长规划,而是一个人并行做5款AI产品。他最反直觉的做法是:用大模型互相“挑刺”,最快24小时上线。更狠的是,他认为“做太久才发布”本身就是创业的大坑。
如果你觉得AI的故事已经被讲烂了,这期对话会让你停下来。Benedict Evans提出一个反直觉判断:AI的重要性堪比互联网和移动时代,但我们正处在“1997年”的迷雾期——真正的变化还没开始,而大多数人理解错了方向。