Vapnik在MIT讲清楚了：什么才是“完整的学习理论”

AI PM 编辑部 · 2020年02月15日 · 0 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场MIT深度学习系列演讲中，统计学习理论奠基人Vladimir Vapnik回顾了50年学习理论的发展，并指出现代机器学习的核心缺陷：我们只解决了“统计问题”，却忽略了“智能原则”。这是一场少见的、从根基反思深度学习的演讲。

Vapnik在MIT讲清楚了：什么才是“完整的学习理论”

在这场MIT深度学习系列演讲中，统计学习理论奠基人Vladimir Vapnik回顾了50年学习理论的发展，并指出现代机器学习的核心缺陷：我们只解决了“统计问题”，却忽略了“智能原则”。这是一场少见的、从根基反思深度学习的演讲。

从50年前出发：统计学习理论解决了什么，又遗漏了什么

为什么今天还要回到统计学习理论的起点？因为在Vapnik看来，现代机器学习的许多困惑，正是源于对学习问题“不完整的理解”。演讲一开始，他就回顾了自己与Professor Chervonenkis在大约50年前共同创立统计学习理论（Statistical Learning Theory， SLT）的背景，并直言：“The statistical part of learning theory is complete... Predicate is something extra.”

统计学习理论的核心任务，是研究在有限样本下，如何保证从数据中学到的函数具有泛化能力。为此，理论引入了VC维（Vapnik–Chervonenkis dimension）这一概念，用来刻画函数集合的复杂度。Vapnik在演讲中再次强调了一个关键点：如果一个函数集合可以对任意样本规模l进行完全打散（shatter），那么它的VC维就是无限的。

但真正的转折在于，他并不满足于“统计一致性”这个结论。即使你有无限VC维的初始函数集合，通过合适的结构约束，理论上依然可以获得可学习性。这一点在他提到的“两个定理”中被明确指出。这直接挑战了很多人对模型复杂度的直觉理解：问题不在于模型是不是复杂，而在于你如何约束学习过程。

这也为整场演讲定下了基调：统计学习理论并没有错，但它只解决了学习的一部分问题。真正的难题，是如何把“智能原则”系统性地引入学习框架中。

经验风险最小化为何会失败：一个被忽视的“病态问题”

为什么我们用得最多的学习方法，可能在理论上就是“有问题的”？Vapnik在演讲中把矛头指向了经验风险最小化（Empirical Risk Minimization， ERM）这一核心范式。

在标准设定中，我们用有限样本上的经验风险来替代真实但不可知的期望风险，并希望通过最小化它得到“最优解”。但Vapnik明确指出：“But something wrong with this replacement... solving equation， it is ill-posed problem.”这里的“ill-posed problem（病态问题）”指的是：解可能不存在、不唯一，或者对数据扰动极其敏感。

他用最小二乘法作为例子进行说明。即使在看似简单的线性回归中，当问题的设定不满足适定性条件时，解的稳定性就会崩塌。演讲中他展示了一条“中间的线”，指出某些情况下，这条线的效果“better than this least squares method”。这不是调参技巧的问题，而是目标函数本身设定不合理。

Vapnik强调，这类问题不是通过更多数据或更强算力就能解决的。根本原因在于：我们用一个统计替代（经验风险）去逼近一个本质上不同的问题（真实风险），却没有引入任何关于问题结构的先验知识。这正是他所说的，统计学习理论之外还需要“predicate（谓词）”的原因。

VC维、鸭子测试与模型复杂性：多样性本身就是风险

在讨论模型复杂性时，Vapnik用了一段颇具幽默感的比喻。他提到一种“duck test logic（鸭子测试逻辑）”：如果你的决策规则越来越像不同的东西，那它很可能真的变得什么都像。

这段话背后，是对VC维增长机制的直观解释。当模型的决策边界越来越多样、越来越灵活时，它能够实现的分类方式急剧增加，VC维也随之上升。Vapnik明确指出：“VC-dimension increase because your decisions are all becoming more and more diverse.”

这里的重要性在于，他并没有简单地反对高复杂度模型。相反，他反复强调：即便初始函数集合具有无限VC维，只要通过合适的结构化方式进行约束，学习依然是可能的。这也是他随后引入再生核希尔伯特空间（Reproducing Kernel Hilbert Space， RKHS）的原因。

在RKHS中，学习问题可以获得闭式解（closed form solution），这意味着问题在数学上是可控的。Vapnik并不是在推销某一种具体算法，而是在展示一种思路：通过对函数空间的结构性限制，把一个原本病态的问题，转化为一个适定的问题。这种思路，与当下“无条件最小化”“暴力学习”的趋势形成了鲜明对比。

完整学习理论的轮廓：统计之外，还必须有“谓词”

如果说前半场是在拆解问题，那么后半场Vapnik开始给出他心中“完整学习问题”的设定。他直接提出疑问：“So what is exact setting of complete learning problem？”

他的答案是：统计部分只是基础，真正让学习变得“智能”的，是引入额外的谓词（predicate）。谓词可以理解为对解的结构性约束、先验知识或物理规律。在演讲中，他提到Lie导数（Lie derivative）作为一个具体例子，说明谓词可以是明确、可计算的数学对象，而不是模糊的直觉。

通过在目标泛函中显式加入这些谓词，学习过程不再只是拟合数据，而是在满足一组额外条件的前提下进行优化。Vapnik总结说：“What we did， is that we can minimize this functional.”这句话看似朴素，却指向了一种不同于主流深度学习的研究方向。

他甚至简要提到神经网络，并坦言：“Let me show something about neural net... but it works.”这不是对神经网络的否定，而是提醒听众：有效不等于完备。一个缺乏完整理论设定的成功方法，终究难以解释其边界和失败方式。

总结

Vapnik这场演讲的价值，不在于给出一个现成的算法，而在于逼迫我们重新思考“学习”本身。他清晰地区分了统计一致性与智能原则，指出现代机器学习在理论层面仍是不完整的。对研究者而言，这是一条更难却更根本的道路；对实践者而言，这提醒我们警惕仅靠数据和算力堆砌的幻觉。真正可靠的学习系统，必须在统计之外，拥有可解释、可验证的结构性约束。

关键词：统计学习理论， VC维，经验风险最小化，再生核希尔伯特空间， Vladimir Vapnik

事实核查备注： Vladimir Vapnik；Professor Chervonenkis；Statistical Learning Theory；VC-dimension；Empirical Risk Minimization；ill-posed problem；Reproducing Kernel Hilbert Space；Lie derivative；演讲时间约50年回顾；MIT Deep Learning Series

返回文章列表