他把生成模型从“堆积木”，推向了连续时间：一场被低估的效率革命

AI PM 编辑部 · 2018年09月11日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为生成模型的效率问题只能靠“堆更多层”，那这场 2018 年的 OpenAI 分享会会直接打脸。Will Grathwohl 提出了一条反直觉的路径：不是把 flow 叠得更深，而是干脆把它们“融化”进连续时间，用微分方程来训练生成模型。

他把生成模型从“堆积木”，推向了连续时间：一场被低估的效率革命

如果你以为生成模型的效率问题只能靠“堆更多层”，那这场 2018 年的 OpenAI 分享会会直接打脸。Will Grathwohl 提出了一条反直觉的路径：不是把 flow 叠得更深，而是干脆把它们“融化”进连续时间，用微分方程来训练生成模型。

生成模型的一个“祖传诅咒”：可逆性正在拖慢一切

在 flow-based 生成模型的世界里，有两个几乎不可违背的铁律：第一，模型必须是可逆的；第二，必须能高效计算 Jacobian 的 log determinant。听起来只是数学约束，但它们直接决定了模型长什么样。

现实很残酷。为了满足这两个条件，研究者往往只能使用结构非常受限、计算友好的变换。单个变换不够强，就只能不断叠加——于是模型越堆越深，参数越来越多，计算越来越慢。Glow 就是一个典型代表：效果很好，但代价不小。

Will 在演讲中点破了一个关键事实：不是我们不想用更强的变换，而是 log determinant 的计算成本，把大家“逼”进了简单结构的角落。这个问题本身，已经暗示了解法可能不在“更聪明的堆叠”，而在“换个视角”。

关键一转：把离散的 Flow，看成连续的时间动力学

真正的转折点出现在一个看似无害的类比上。Will 提出：你可以把 flow-based model 理解为一个离散时间的动力系统——每一层 flow，就是时间往前走一步。

那如果我们把“步长”缩小到无限小呢？极限情况下，这个系统自然过渡成一个连续时间的动力学过程。于是，原本一层一层的 flow，被统一进了一个函数：它接收当前数据点和时间 t，直接输出“此刻应该往哪里走”。

数学上，这等价于定义了一个常微分方程（ODE）的初值问题。更妙的是，似曾相识的 change of variables 公式，在连续情形下发生了一个微妙但致命的变化：

离散 flow：累加的是 log det（Jacobian）
连续时间：变成了 向量场散度的积分

形式几乎一样，但计算复杂度，天差地别。

一个细节，决定了生死：散度比行列式“友好”太多了

这可能是整场演讲最“值钱”的洞察。

对于一个从 R^N 到 R^N 的任意函数，计算 Jacobian 的 log determinant，本质上是 O（N^3）的操作，而且还得先算 Jacobian。本质结论是：几乎不可能高效、无偏地估计它。

但散度不一样。Will 指出，散度可以用一种极其巧妙的方法来估计：采样一个高斯向量，利用自动微分，对 Jacobian 做一次“前后夹击”。在期望意义下，这个结果正好就是散度。

这带来了一个在 2018 年相当炸裂的结论：

“我们第一次可以对连续 normalizing flow 的 log-likelihood，给出一个高效、无偏的估计。”

这件事在离散 flow 里是做不到的。结果是：你终于可以用几乎任意结构的神经网络，来参数化一个可逆生成模型，而且还能正常训练。

代价转移，而不是消失：ODE 成了新的瓶颈

当然，世界不会白送礼物。

你消除了 log determinant 的计算地狱，却引入了新的复杂度：现在你得真的去解一个 ODE，而且还要对“解的过程”反向传播。听起来就不像是深度学习常规操作。

Will 很坦诚：这正是他们当时最大的工程挑战。好消息是，学界早已有几十年数值分析的积累。借助多伦多大学的一项工作，他们通过构造一个增广 ODE 系统，把梯度计算也塞进了一次 ODE 求解里。

这套方法在规模上还没完全碾压 Glow，但已经在一些数据集上做到“同级甚至更好”。更重要的是，它证明了一件事：这条路不是玩具，而是一条真实可走的路径。

总结

这场分享最重要的价值，不在于某个具体指标是否超越 Glow，而在于它示范了一种研究思路：当架构被数学约束卡死时，换一个连续视角，问题的形态可能会彻底改变。对今天的 AI 从业者来说，Continuous Normalizing Flow 提醒我们三件事：第一，效率问题不一定靠堆参数解决；第二，自动微分 + 经典数学，可能是被低估的组合；第三，真正拉开代差的，往往是“怎么看问题”，而不是“多调了几个超参”。如果你在做生成模型或扩散模型，不妨回头想想：你的瓶颈，真的是算力吗？

关键词：连续正则化流，生成式AI， ODE， Flow模型，模型效率

事实核查备注：需要核查：演讲者姓名 Will Grathwohl；视频发布时间 2018-09-11；提出方法与多伦多大学相关工作的具体指代；Glow 模型作为对比对象的表述准确性；“无偏估计 log-likelihood”的表述边界条件

返回文章列表