François Chollet谈深度学习的边界：为什么抽象规则不可或缺

AI PM 编辑部 · 2019年10月10日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

在这段与Lex Fridman的对话中，François Chollet直指深度学习的核心瓶颈：它擅长插值，却难以实现人类式的“极端泛化”。通过排序算法、自动驾驶和对话AI等例子，他提出未来AI必须走向符号规则与神经网络的混合范式。

在这段与Lex Fridman的对话中，François Chollet直指深度学习的核心瓶颈：它擅长插值，却难以实现人类式的“极端泛化”。通过排序算法、自动驾驶和对话AI等例子，他提出未来AI必须走向符号规则与神经网络的混合范式。

理解深度学习的边界，首先要理解它是如何工作的。Chollet指出，深度神经网络本质上是“巨大的连续参数函数”，通过梯度下降学习从输入空间到输出空间的映射。这种学习方式决定了它是逐点进行的，只能对训练数据附近的样本做出可靠判断。

他用一个非常形象的说法来总结这一点：神经网络学习的是一种“几何形变”。结果是，它们最擅长的是插值，而不是跨越巨大差异的推理。正如他所说：“深度神经网络只能理解与训练数据非常接近的点。”这意味着，如果问题空间足够复杂，就必须对输入—输出空间进行极其密集的采样。

而这正是问题所在。现实世界的复杂任务——比如驾驶、对话、理解物理世界——几乎不可能获得“接近逐点”的数据覆盖。人类却可以从极少的样本中举一反三，这种能力在Chollet看来，正是当前深度学习与人类智能之间的核心鸿沟。

为了说明抽象规则的力量，Chollet讲了一个极其朴素却有力的例子：排序算法。如果你尝试用深度神经网络去“学习”排序，它能做的只是记住“这个具体列表排序后长什么样”。换一个长度、换一个分布，模型很可能就失效。

但一个人类程序员写下的排序算法，可能只有几行代码、两个嵌套循环，却可以处理“任何列表”。原因不在于数据量，而在于抽象。Chollet强调：“符号规则可以应用到非常非常大的输入集合，因为它是抽象的，而不是逐点映射得到的。”

这个对比点出了深度学习与符号系统的根本差异：前者用大量参数逼近函数，后者用规则压缩世界。规则是一种高度压缩的表示形式，而压缩，正是泛化能力的来源。这也是为什么在人类认知中，推理和规则始终扮演着关键角色。

当话题转向现实世界的AI系统时，Chollet给出了一个反直觉却非常重要的判断：真正成功的系统，几乎从来不是“纯深度学习”。他以自动驾驶为例，明确表示“一个巨大的端到端神经网络根本行不通”。

原因依然是数据密度。要用端到端模型覆盖所有驾驶场景，需要对经验空间进行近乎不可能的密集采样。现实中的自动驾驶系统，核心仍然是符号化的：手工编写的软件、规划算法、以及对环境的显式建模（例如3D模型）。

深度学习在其中扮演的角色更像是接口层。Chollet说，它被用作“感知模块”，把原始传感器信号转化为符号系统可以使用的表示，有时也用来“向规则系统注入一种模糊的直觉”。这种分工清晰地展示了混合架构的价值：神经网络负责感知，符号系统负责推理与规划。

在讨论自然语言对话和图灵测试时，Chollet保持了一贯的克制。他认为图灵测试更多是“欺骗感知”，而不是真正的智能。但即便是更严肃的对话任务——持续20分钟、有上下文、有话题跳转——用纯粹的点对点神经网络来解决，依然“非常具有挑战性”。

同样的问题也出现在物理世界理解上。神经网络或许可以学习“在这种情况下会发生什么”，但这种映射极其低效。Chollet直言，一个显式的、基于规则的物理模型，“会是对物理更好、更压缩的表示”。

至于规则能否被自动学出来，他提到了程序合成（program synthesis）这一研究方向，并坦率承认：“今天我们并不知道该怎么做。”相比之下，进化算法、遗传编程等方向在他看来更具潜力，但整体仍处在探索阶段。

这段对话的价值不在于给出答案，而在于清晰地划定了边界。Chollet并未否定深度学习的潜力，而是反复强调它最适合感知与“人工直觉”。真正困难、也真正关键的，是如何把这种直觉与抽象规则结合起来。对研究者和从业者而言，这意味着下一代AI突破，可能不来自更大的模型，而来自更聪明的结构设计。

关键词： François Chollet，深度学习边界，极端泛化，符号AI，混合智能

事实核查备注：人物：François Chollet（访谈嘉宾），Lex Fridman（主持人）；视频发布时间：2019-10-10；关键概念：深度神经网络、梯度下降、插值与泛化、符号规则、排序算法、自动驾驶混合架构、程序合成（program synthesis）、遗传编程。