他把生成模型从“堆积木”,推向了连续时间:一场被低估的效率革命

AI PM 编辑部 · 2018年09月11日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为生成模型的效率问题只能靠“堆更多层”,那这场 2018 年的 OpenAI 分享会会直接打脸。Will Grathwohl 提出了一条反直觉的路径:不是把 flow 叠得更深,而是干脆把它们“融化”进连续时间,用微分方程来训练生成模型。

他把生成模型从“堆积木”,推向了连续时间:一场被低估的效率革命

如果你以为生成模型的效率问题只能靠“堆更多层”,那这场 2018 年的 OpenAI 分享会会直接打脸。Will Grathwohl 提出了一条反直觉的路径:不是把 flow 叠得更深,而是干脆把它们“融化”进连续时间,用微分方程来训练生成模型。

生成模型的一个“祖传诅咒”:可逆性正在拖慢一切

在 flow-based 生成模型的世界里,有两个几乎不可违背的铁律:第一,模型必须是可逆的;第二,必须能高效计算 Jacobian 的 log determinant。听起来只是数学约束,但它们直接决定了模型长什么样。

现实很残酷。为了满足这两个条件,研究者往往只能使用结构非常受限、计算友好的变换。单个变换不够强,就只能不断叠加——于是模型越堆越深,参数越来越多,计算越来越慢。Glow 就是一个典型代表:效果很好,但代价不小。

Will 在演讲中点破了一个关键事实:不是我们不想用更强的变换,而是 log determinant 的计算成本,把大家“逼”进了简单结构的角落。这个问题本身,已经暗示了解法可能不在“更聪明的堆叠”,而在“换个视角”。

关键一转:把离散的 Flow,看成连续的时间动力学

真正的转折点出现在一个看似无害的类比上。Will 提出:你可以把 flow-based model 理解为一个离散时间的动力系统——每一层 flow,就是时间往前走一步。

那如果我们把“步长”缩小到无限小呢?极限情况下,这个系统自然过渡成一个连续时间的动力学过程。于是,原本一层一层的 flow,被统一进了一个函数:它接收当前数据点和时间 t,直接输出“此刻应该往哪里走”。

数学上,这等价于定义了一个常微分方程(ODE)的初值问题。更妙的是,似曾相识的 change of variables 公式,在连续情形下发生了一个微妙但致命的变化:

  • 离散 flow:累加的是 log det(Jacobian)
  • 连续时间:变成了 向量场散度的积分

形式几乎一样,但计算复杂度,天差地别。

一个细节,决定了生死:散度比行列式“友好”太多了

这可能是整场演讲最“值钱”的洞察。

对于一个从 R^N 到 R^N 的任意函数,计算 Jacobian 的 log determinant,本质上是 O(N^3) 的操作,而且还得先算 Jacobian。本质结论是:几乎不可能高效、无偏地估计它

但散度不一样。Will 指出,散度可以用一种极其巧妙的方法来估计:采样一个高斯向量,利用自动微分,对 Jacobian 做一次“前后夹击”。在期望意义下,这个结果正好就是散度。

这带来了一个在 2018 年相当炸裂的结论:

“我们第一次可以对连续 normalizing flow 的 log-likelihood,给出一个高效、无偏的估计。”

这件事在离散 flow 里是做不到的。结果是:你终于可以用几乎任意结构的神经网络,来参数化一个可逆生成模型,而且还能正常训练

代价转移,而不是消失:ODE 成了新的瓶颈

当然,世界不会白送礼物。

你消除了 log determinant 的计算地狱,却引入了新的复杂度:现在你得真的去解一个 ODE,而且还要对“解的过程”反向传播。听起来就不像是深度学习常规操作。

Will 很坦诚:这正是他们当时最大的工程挑战。好消息是,学界早已有几十年数值分析的积累。借助多伦多大学的一项工作,他们通过构造一个增广 ODE 系统,把梯度计算也塞进了一次 ODE 求解里。

这套方法在规模上还没完全碾压 Glow,但已经在一些数据集上做到“同级甚至更好”。更重要的是,它证明了一件事:这条路不是玩具,而是一条真实可走的路径

总结

这场分享最重要的价值,不在于某个具体指标是否超越 Glow,而在于它示范了一种研究思路:当架构被数学约束卡死时,换一个连续视角,问题的形态可能会彻底改变。对今天的 AI 从业者来说,Continuous Normalizing Flow 提醒我们三件事:第一,效率问题不一定靠堆参数解决;第二,自动微分 + 经典数学,可能是被低估的组合;第三,真正拉开代差的,往往是“怎么看问题”,而不是“多调了几个超参”。如果你在做生成模型或扩散模型,不妨回头想想:你的瓶颈,真的是算力吗?


关键词: 连续正则化流, 生成式AI, ODE, Flow模型, 模型效率

事实核查备注: 需要核查:演讲者姓名 Will Grathwohl;视频发布时间 2018-09-11;提出方法与多伦多大学相关工作的具体指代;Glow 模型作为对比对象的表述准确性;“无偏估计 log-likelihood”的表述边界条件