正在加载视频...
视频章节
在这场关于 GPT‑4.5 预训练的公开对谈中,OpenAI 几乎没有给出任何“数字答案”。参数多少?失败率多高?他们刻意回避。但真正的猛料恰恰在这些回避背后:当模型规模逼近极限,决定成败的已经不再是参数,而是系统、数据与人类决策的复杂博弈。
OpenAI 罕见自述 GPT‑4.5 预训练:不是参数竞赛,而是一场系统工程赌博
在这场关于 GPT‑4.5 预训练的公开对谈中,OpenAI 几乎没有给出任何“数字答案”。参数多少?失败率多高?他们刻意回避。但真正的猛料恰恰在这些回避背后:当模型规模逼近极限,决定成败的已经不再是参数,而是系统、数据与人类决策的复杂博弈。
最反直觉的开场:他们已经不太想谈“参数”了
对话一开始就有人抛出外界最关心的问题之一:模型到底有多少参数?但现场的反应并不是给出一个数字,而是略带玩笑、又意味深长地把话题岔开。这不是保密那么简单,而是一种态度变化。
在 GPT‑4.5 这个阶段,参数规模已经不再是最有解释力的指标。团队反复强调的不是“多大”,而是“多复杂”:有多少人参与?耗费了多少时间?多少算力被真正有效地用在了学习上?换句话说,规模已经从“模型维度”转移到了“组织和系统维度”。
这对行业是个危险信号——如果你还在用参数量判断一个模型的上限,你可能已经落后一个时代了。
训练大模型为什么越来越难?答案不只在算力
当被直接问到“为什么训练大模型这么难”时,答案听起来很朴素:数据、系统、稳定性。但越往下聊,越能感受到其中的张力。
首先是系统层面的问题。如此规模的训练不是一次“跑模型”,而是一个长期运行的复杂工程,任何一个子系统的不稳定,都会让成千上万步训练白白浪费。有人直接问:训练过程中失败的 step 占比有多高?这个问题没有得到数字回答,但“availability earlier on in the process”被反复提及,暗示早期阶段的失败是常态,而不是例外。
其次是人。这里的“人”不是研究员聪不聪明,而是协作成本。‘a lot of people and a lot of time’这句话看似轻描淡写,背后其实是跨团队协同、决策延迟、风险判断的巨大压力。训练 GPT‑4.5,更像是在管理一家高风险的临时公司。
Scaling 还重要吗?重要,但它不再是终点
一个关键问题被直接抛出:我们还需要继续 scaling 吗?回答非常克制——scale 仍然重要,但‘The system is not an end.’
这句话的潜台词是:单纯把模型做大,并不会自动带来你想要的能力。真正决定模型表现的,是训练过程中每一个决策如何降低不确定性、如何“minimize that variance”。
这也是为什么他们开始更频繁地谈系统设计、训练流程、失败恢复机制,而不是架构细节。Scaling 从一个目标,变成了一种手段;而系统是否能承载这种 scale,才是新的瓶颈。
从推理到无监督:他们真正信的是什么
在后半段,对话逐渐转向更“哲学”的层面:推理模型、无监督学习,以及它们为什么真的会产生智能。
有一个问题被反复绕回:为什么无监督学习有效?为什么它不仅能压缩数据,还能涌现出推理能力?虽然没有给出公式级的解释,但可以感受到一种强烈的确信——这不是巧合,而是世界结构本身使然。
推理模型被视为未来的核心组成,但它并不是脱离基础模型独立存在的‘外挂’,而是训练范式、数据分布和目标函数长期共同作用的结果。这也解释了为什么他们如此谨慎地谈‘future GPTs’,而不是下一次简单的升级。
那些让内部团队记住的瞬间
在偏轻松的段落里,有人被问到:整个训练过程中最积极、最有力量的瞬间是什么?答案并不技术,而是情绪性的——当某个阶段的 scaling ‘held up really well’,当系统按预期工作,那种感觉非常强。
这些片段提醒我们:GPT‑4.5 并不是一条平滑的指数曲线,而是一系列‘差点翻车’与‘侥幸成功’交织的故事。正是这些故事,塑造了他们对下一代模型的谨慎与自信并存的态度。
总结
这场关于 GPT‑4.5 预训练的对谈,真正的价值不在于它说了什么数字,而在于它刻意没说什么。对从业者来说,最大的 takeaway 是:模型竞争已经进入“系统工程时代”。如果你在做模型、做平台或做应用,值得重新审视自己的瓶颈到底在哪里——是参数不够,还是系统不稳?是数据不足,还是组织决策太慢?下一个数量级的提升,可能不在代码里,而在你如何设计整个训练与决策流程。未来的赢家,很可能是最懂得管理不确定性的人。
关键词: GPT-4.5, 模型预训练, Scaling Laws, 无监督学习, AI推理
事实核查备注: 需核查:视频实际时长;视频中是否明确提及“GPT-4.5”作为名称;是否出现关于失败 step 比例的具体数据(当前文章未给出数字);发布时间 2025-04-11 是否准确