他拒绝 OpenAI,却和 Yann LeCun 创业:谢赛宁的世界模型野心

AI PM 编辑部 · 2026年03月16日 · 156 阅读 · AI/人工智能

正在加载视频...

视频章节

“Ilya 给我打电话,我一句话没说,直接拒了 OpenAI。”在一场长达 7 小时的马拉松访谈里,谢赛宁首次系统讲清了他为什么不追逐大模型热潮,而是押注世界模型、视频和具身智能。这不是一段成功学故事,而是一条反直觉的 AI 路线图。

他拒绝 OpenAI,却和 Yann LeCun 创业:谢赛宁的世界模型野心

“Ilya 给我打电话,我一句话没说,直接拒了 OpenAI。”在一场长达 7 小时的马拉松访谈里,谢赛宁首次系统讲清了他为什么不追逐大模型热潮,而是押注世界模型、视频和具身智能。这不是一段成功学故事,而是一条反直觉的 AI 路线图。

拒绝 OpenAI 那一刻,他其实已经选好了路

整场访谈里,最容易被传播的一句话,来自一个看似随意的笑谈:“Ilya 给我打电话,我什么都没说,直接拒了 OpenAI。”但如果只把它当成八卦,就低估了这次选择的分量。

在 2024–2025 年,大模型几乎是 AI 世界唯一的中心。加入 OpenAI,意味着无限算力、顶级数据和行业话语权。但谢赛宁的判断是:语言模型不是智能的终点,而只是接口层。他说得很克制,却很坚决——“有爱就有恨,它们是一枚硬币的两面”。

他真正不愿意妥协的,是研究方向的主线。相比在既定的 scaling 路线上继续堆参数,他更关心一个更慢、更难、也更不性感的问题:模型是否真正理解世界?如果答案是否定的,那再强的 LLM,也只是一个高明的模仿器。

从上海交大 ACM 班,到“我不是天选之子”

谢赛宁反复强调一句话:“我不是天选之子,我是普通人。”这不是姿态,而是对自己路径的真实总结。

他的成长并不符合“竞赛天才”的叙事模板:成绩不是年级顶尖,高考与保送之间摇摆,进入上海交大 ACM 班更多是被推荐而非碾压式胜出。大学生活里,他大量时间在打游戏、混夏令营,也经历过对未来方向的迷茫。

真正塑造他的,是家庭和环境。母亲带他旅行,父亲在家读书;他很早接触电脑、BBS、博客,形成了“观察世界—表达想法—反复修正”的习惯。这解释了为什么他后来会如此执着于感知、表示和世界结构——而不是短期可交付的应用成果。

为什么是视觉?因为智能首先是“看懂世界”

在计算机视觉成为资本宠儿之前,谢赛宁就已经被这个方向吸引。他提到一个近乎哲学的判断:如果一个系统连世界长什么样都不知道,那它谈不上智能。

在本科和博士阶段,他在侯晓迪、涂卓文等导师的影响下,逐渐确认了研究主线:representation learning 才是深度学习的核心。无论是 Deeply Supervised Nets、HED,还是后来在 FAIR 的工作,本质都在回答同一个问题——如何让模型学到稳定、可迁移、可组合的表示。

这也解释了他对“短期 SOTA”的克制态度。奖项、引用、榜单固然重要,但它们往往带有随机性。真正重要的是,这条线十年后是否还能继续生长。

FAIR、ResNet 之后,他开始怀疑“纯语言路线”

在 FAIR 的经历,是谢赛宁世界观成型的关键阶段。与何恺明合作、亲历 ResNet 之后一系列工作的影响力,让他见识到什么叫“真正改变研究范式”。

但也正是在这里,他越来越清楚地看到语言模型的边界。自监督、对比学习、MoCo、MAE——这些方法的共同点不是语言,而是如何从原始感知信号中压缩出世界结构

他直言不讳地指出:LLM 在很多任务上表现惊艳,但它们主要是在“人类文本的统计空间”里工作。缺失的是时间、物理、因果,以及行动带来的反馈。这不是通过再喂一些 token 就能解决的问题。

扩散模型、DiT,被拒稿之后反而走得更远

访谈里一个被低估的细节,是他对扩散模型路线的回顾。从 U-Net 到 DiT,用 Transformer 重构扩散模型的架构,在最初并不被普遍看好,甚至经历过拒稿。

但时间给出了答案。后来的视频生成系统(包括 Sora)证明,这条路线不仅成立,而且可能是通向高质量世界模拟的重要一环。

他对此的态度依旧冷静:成功并不等于方向完全正确,只能说明“这一步没有走错”。真正困难的,是如何把静态生成推进到可预测、可交互的世界模型

和 Yann LeCun 创业:AMI Labs 想做一件慢而难的事

最终,故事走向了一个并不意外的结局——和 Yann LeCun 一起创业。

AMI Labs 的选择,本身就是对行业的一次逆流:小团队(25 人)、长周期目标、不急于产品化,核心押注视频、世界模型、具身智能。他们相信,未来真正有价值的 AI,不是更会聊天的助手,而是能在现实世界中形成预测和行动闭环的系统

谢赛宁说得很朴素:创业不是为了证明自己比大厂更聪明,而是为了在价值观一致的前提下,把一条长期路线走到底。

总结

这场 7 小时访谈,真正的价值不在于八卦或技术名词,而在于一条清晰但不讨好的判断:AI 的下一个拐点,可能不在语言,而在世界本身。对从业者来说,这意味着两件事——一是不要被短期热点完全牵着走,二是尽早思考自己押注的“长期变量”。如果你现在做的方向,五年后依然成立,那它就值得你投入时间和耐心。世界模型很远,但方向一旦选错,跑得再快也没用。


关键词: 谢赛宁, 世界模型, Yann LeCun, 生成式AI, 计算机视觉

事实核查备注: 需要核查:1)谢赛宁拒绝 OpenAI 的具体时间与形式;2)AMI Labs 的团队规模与融资阶段;3)DiT 与 Sora 的实际技术关联程度;4)访谈中关于 LLM 局限性的原话表述;5)涉及导师与合作关系的人名拼写与职称