Ilya Sutskever断言“数据已封顶”:预训练时代正在终结
正在加载视频...
视频章节
OpenAI前首席科学家Ilya Sutskever在NeurIPS上的罕见公开发声,引爆了AI圈关于“预训练是否已走到尽头”的讨论。他提出“Peak Data”概念,认为互联网数据已被基本耗尽,未来突破将来自推理、Agent和全新尺度逻辑。这篇文章带你还原这场争议背后的关键洞见。
Ilya Sutskever断言“数据已封顶”:预训练时代正在终结
OpenAI前首席科学家Ilya Sutskever在NeurIPS上的罕见公开发声,引爆了AI圈关于“预训练是否已走到尽头”的讨论。他提出“Peak Data”概念,认为互联网数据已被基本耗尽,未来突破将来自推理、Agent和全新尺度逻辑。这篇文章带你还原这场争议背后的关键洞见。
从“无限扩展”到“撞上天花板”:一次态度急转弯
为什么Ilya的这次发言如此重要?因为他本人,正是过去十多年“只要更多数据和算力就能更聪明”的坚定信徒之一。作为OpenAI的联合创始人和早期首席科学家,他几乎亲手塑造了大语言模型的“规模化信仰”。
在2024年12月的NeurIPS会议上,Ilya在温哥华罕见露面,直接抛出了一个足以动摇行业共识的判断:“预训练(pre-training)毫无疑问将会结束。”更尖锐的是,他给出了理由——不是算力不够,而是数据不够了。
他说得非常直白:“虽然算力还在增长,但我们已经达到了‘Peak Data’。不会再有更多数据了,我们只能处理我们已有的数据。互联网只有一个。”这并不是指训练成本太高,而是人类可被机器学习的公共知识总量,本身出现了物理意义上的上限。
这番话之所以震撼,是因为它意味着:过去十年屡试不爽的路径,可能已经走到尽头。更大的模型、更长的语料,正在带来明显的边际收益递减。
行业共振:微软、谷歌高管已提前“感到吃力”
Ilya并不是第一个察觉到变化的人。早在几个月前,就有来自一线实验室的声音透露,超大规模训练正在“撞墙”——继续加算力和数据,但模型能力的跃迁却越来越小。
这一点,在大型科技公司CEO的公开表态中得到了侧面印证。微软CEO萨提亚·纳德拉(Satya Nadella)在Microsoft Ignite大会上提到,他们正在看到“一种新的扩展定律”,重点不再是预训练规模,而是“测试时算力”(test-time compute),也就是模型在推理阶段消耗的计算资源。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)在纽约时报DealBook峰会上说得更直白:“当我看向2025年时,我认为进展会变得更难。低垂的果实已经摘完了,坡度更陡了。”
即便是OpenAI内部,也已经悄然调整方向。Sam Altman强调“没有墙”,但他口中的新机会,已经从单纯的预训练扩展,转向了推理模型和“让模型思考得更久”。这本身就说明,旧路线的确定性正在减弱。
“Peak Data”的真正含义:不是没数据,而是没新概念
很多人听到“数据用完了”的第一反应是反驳:不是还有海量私有数据、合成数据吗?社交平台、企业内部文档、甚至视觉和感知数据,难道不算吗?
Ilya的意思,其实更深一层。他并不是否认数据规模还能变大,而是质疑:这些新增数据,是否真的包含“新的思想”。正如评论者总结的那样,一旦模型已经“记住了整个人类思想目录”,再多的数据,更多只是重复和重组。
有研究者指出,文本形式的Wikipedia和截图形式的Wikipedia之间,确实存在巨大的信息密度差异;感知数据尚未被充分利用。但Ilya关心的并不是形式,而是内容的创造性。他的隐含前提是:智能不等于“更好地补全已见过的模式”。
正如他所暗示的那样,“学习完成部分观察,并不足以产生真正的智能。”这句话,也被不少人视为对当前大模型范式的根本性质疑。
如果不靠预训练,靠什么?Agent、推理与不可预测性
在否定旧道路的同时,Ilya也勾勒了几条可能的新方向:Agent、合成数据,以及推理时算力。其中,Agent是他反复强调、但又极为谨慎的话题。
他直言不讳地评价当前的“Agent热潮”:“现在的系统在任何有意义的层面上都还不是Agent,它们只是刚刚开始。”这些系统容易混乱、需要人类频繁监督,更多是第一阶段的原型。
他真正期待的,是能够进行深度推理的模型——不是模仿人类直觉,而是生成“新的逻辑链条”。他用国际象棋AI做类比:顶级下棋模型之所以强大,是因为它们对人类大师来说是不可预测的。
在更宏观的层面,Ilya甚至借鉴了生物进化的例子:大多数哺乳动物的大脑大小和体重呈稳定比例,灵长类略高,但人类祖先却突然“跳出了曲线”。他说:“这说明,生物学上存在另一种尺度逻辑。”在他看来,超级智能也将如此——能力形态将与预训练时代完全不同。
争议与质疑:这是科学判断,还是融资叙事?
如此宏大的判断,自然引来了分歧。一些研究者感到失望,因为Ilya并没有像十年前那样,清晰指出“下一步该怎么做”。DeepMind的研究员Dmitry Eran直言:“遗憾的是他说了什么没说——10年前他会告诉我们他认为该做什么。”
也有人更为尖锐地质疑动机。Nate Sanders认为,过去90天里关于“数据枯竭”的悲观情绪,可能与Ilya的新公司Safe Superintelligence(SSI)正在融资有关,这恰好构成了一个强有力的叙事基础。
但也有不少人认为,无论动机如何,这次发言本身释放了一个积极信号:行业终于开始认真讨论“预训练之后”的世界。正如有人类比的那样,大脑尺寸不再增长,人类却通过工具和组织持续进步;也许,大模型的未来也在模型之上,而不是模型本身。
总结
Ilya Sutskever并没有给出路线图,也没有承诺时间表。他只是反复强调:“我不是在说如何实现,也不是在说何时实现,而是在说它一定会发生。”真正重要的,或许正是这一点——当预训练不再是唯一答案,AI的下一次飞跃,可能来自我们尚未命名的新范式。对于整个行业而言,问题已经从“还能不能继续扩展”,变成了“我们究竟在扩展什么”。
关键词: Ilya Sutskever, Peak Data, 预训练, AI Agent, AI推理
事实核查备注: Ilya Sutskever:OpenAI联合创始人,Safe Superintelligence创始人;会议:NeurIPS 2024(温哥华);关键概念:Peak Data、pre-training、test-time compute、Agent;相关人物:Satya Nadella(微软CEO)、Sundar Pichai(谷歌CEO)、Sam Altman(OpenAI CEO);公司:OpenAI、Microsoft、Google、Google DeepMind