他拒绝 OpenAI，却和 Yann LeCun 创业：谢赛宁的世界模型野心

AI PM 编辑部 · 2026年03月16日 · 266 阅读 · AI/人工智能

Yann LeCun Ilya Sutskever 世界模型 Transformer 生成式AI AI应用计算机视觉深度学习多模态大语言模型

正在加载视频...

视频章节

“Ilya 给我打电话，我一句话没说，直接拒了 OpenAI。”在一场长达 7 小时的马拉松访谈里，谢赛宁首次系统讲清了他为什么不追逐大模型热潮，而是押注世界模型、视频和具身智能。这不是一段成功学故事，而是一条反直觉的 AI 路线图。

他拒绝 OpenAI，却和 Yann LeCun 创业：谢赛宁的世界模型野心

“Ilya 给我打电话，我一句话没说，直接拒了 OpenAI。”在一场长达 7 小时的马拉松访谈里，谢赛宁首次系统讲清了他为什么不追逐大模型热潮，而是押注世界模型、视频和具身智能。这不是一段成功学故事，而是一条反直觉的 AI 路线图。

拒绝 OpenAI 那一刻，他其实已经选好了路

整场访谈里，最容易被传播的一句话，来自一个看似随意的笑谈：“Ilya 给我打电话，我什么都没说，直接拒了 OpenAI。”但如果只把它当成八卦，就低估了这次选择的分量。

在 2024–2025 年，大模型几乎是 AI 世界唯一的中心。加入 OpenAI，意味着无限算力、顶级数据和行业话语权。但谢赛宁的判断是：语言模型不是智能的终点，而只是接口层。他说得很克制，却很坚决——“有爱就有恨，它们是一枚硬币的两面”。

他真正不愿意妥协的，是研究方向的主线。相比在既定的 scaling 路线上继续堆参数，他更关心一个更慢、更难、也更不性感的问题：模型是否真正理解世界？如果答案是否定的，那再强的 LLM，也只是一个高明的模仿器。

从上海交大 ACM 班，到“我不是天选之子”

谢赛宁反复强调一句话：“我不是天选之子，我是普通人。”这不是姿态，而是对自己路径的真实总结。

他的成长并不符合“竞赛天才”的叙事模板：成绩不是年级顶尖，高考与保送之间摇摆，进入上海交大 ACM 班更多是被推荐而非碾压式胜出。大学生活里，他大量时间在打游戏、混夏令营，也经历过对未来方向的迷茫。

真正塑造他的，是家庭和环境。母亲带他旅行，父亲在家读书；他很早接触电脑、BBS、博客，形成了“观察世界—表达想法—反复修正”的习惯。这解释了为什么他后来会如此执着于感知、表示和世界结构——而不是短期可交付的应用成果。

为什么是视觉？因为智能首先是“看懂世界”

在计算机视觉成为资本宠儿之前，谢赛宁就已经被这个方向吸引。他提到一个近乎哲学的判断：如果一个系统连世界长什么样都不知道，那它谈不上智能。

在本科和博士阶段，他在侯晓迪、涂卓文等导师的影响下，逐渐确认了研究主线：representation learning 才是深度学习的核心。无论是 Deeply Supervised Nets、HED，还是后来在 FAIR 的工作，本质都在回答同一个问题——如何让模型学到稳定、可迁移、可组合的表示。

这也解释了他对“短期 SOTA”的克制态度。奖项、引用、榜单固然重要，但它们往往带有随机性。真正重要的是，这条线十年后是否还能继续生长。

FAIR、ResNet 之后，他开始怀疑“纯语言路线”

在 FAIR 的经历，是谢赛宁世界观成型的关键阶段。与何恺明合作、亲历 ResNet 之后一系列工作的影响力，让他见识到什么叫“真正改变研究范式”。

但也正是在这里，他越来越清楚地看到语言模型的边界。自监督、对比学习、MoCo、MAE——这些方法的共同点不是语言，而是如何从原始感知信号中压缩出世界结构。

他直言不讳地指出：LLM 在很多任务上表现惊艳，但它们主要是在“人类文本的统计空间”里工作。缺失的是时间、物理、因果，以及行动带来的反馈。这不是通过再喂一些 token 就能解决的问题。

扩散模型、DiT，被拒稿之后反而走得更远

访谈里一个被低估的细节，是他对扩散模型路线的回顾。从 U-Net 到 DiT，用 Transformer 重构扩散模型的架构，在最初并不被普遍看好，甚至经历过拒稿。

但时间给出了答案。后来的视频生成系统（包括 Sora）证明，这条路线不仅成立，而且可能是通向高质量世界模拟的重要一环。

他对此的态度依旧冷静：成功并不等于方向完全正确，只能说明“这一步没有走错”。真正困难的，是如何把静态生成推进到可预测、可交互的世界模型。

和 Yann LeCun 创业：AMI Labs 想做一件慢而难的事

最终，故事走向了一个并不意外的结局——和 Yann LeCun 一起创业。

AMI Labs 的选择，本身就是对行业的一次逆流：小团队（25 人）、长周期目标、不急于产品化，核心押注视频、世界模型、具身智能。他们相信，未来真正有价值的 AI，不是更会聊天的助手，而是能在现实世界中形成预测和行动闭环的系统。

谢赛宁说得很朴素：创业不是为了证明自己比大厂更聪明，而是为了在价值观一致的前提下，把一条长期路线走到底。

总结

这场 7 小时访谈，真正的价值不在于八卦或技术名词，而在于一条清晰但不讨好的判断：AI 的下一个拐点，可能不在语言，而在世界本身。对从业者来说，这意味着两件事——一是不要被短期热点完全牵着走，二是尽早思考自己押注的“长期变量”。如果你现在做的方向，五年后依然成立，那它就值得你投入时间和耐心。世界模型很远，但方向一旦选错，跑得再快也没用。

关键词：谢赛宁，世界模型， Yann LeCun，生成式AI，计算机视觉

事实核查备注：需要核查：1）谢赛宁拒绝 OpenAI 的具体时间与形式；2）AMI Labs 的团队规模与融资阶段；3）DiT 与 Sora 的实际技术关联程度；4）访谈中关于 LLM 局限性的原话表述；5）涉及导师与合作关系的人名拼写与职称

返回文章列表