Gary Marcus：为什么深度学习缺的不是规模，而是常识

AI PM 编辑部 · 2019年10月07日 · 9 阅读 · AI/人工智能

Geoffrey Hinton Yann LeCun 模型训练机器学习深度学习神经网络无监督学习迁移学习

正在加载视频...

视频章节

在与 Lex Fridman 的对话中，Gary Marcus 系统性地反思了深度学习的边界。他认为，当前 AI 最大的瓶颈不在算力或数据，而在缺乏“常识”和可解释的认知模型。本文提炼了他最关键的洞见、经典案例与争议观点。

Gary Marcus：为什么深度学习缺的不是规模，而是常识

在与 Lex Fridman 的对话中，Gary Marcus 系统性地反思了深度学习的边界。他认为，当前 AI 最大的瓶颈不在算力或数据，而在缺乏“常识”和可解释的认知模型。本文提炼了他最关键的洞见、经典案例与争议观点。

为什么深度学习的挑战不能单点解决

这段对话的起点，是 Gary Marcus 几年前那篇著名论文《Deep Learning： A Critical Appraisal》。Lex Fridman 一口气列出了其中的多个挑战：数据效率、迁移学习、层级知识、开放式推理、可解释性、因果推理、鲁棒性与对抗样本等。Marcus 的回应却出人意料——他拒绝挑出“最重要的一条”。

他解释说，这些问题并不是彼此独立的工程清单，而是纠缠在一起的系统性缺陷。“如果你没有真正的认知模型，很多问题看起来像是独立的，但实际上它们会一起失败。”在他看来，当前主流深度学习更像是对世界的统计近似，而不是理解。

这里的关键词是“认知模型”（cognitive models）：一种解释系统如何理解日常世界的内部结构。如果 AI 只是在高维空间中拟合相关性，它在分布内任务上可能表现惊艳，但一旦环境变化，就会暴露出脆弱性。这也是 Marcus 特别强调“真实世界系统的可靠性和工程问题”的原因——不是因为它听起来更务实，而是因为它最终检验了所有其他能力是否真的存在。

“常识”不是简单知识，而是复杂的认知结构

当对话转向“常识”时，Marcus 特意提醒：这个词既充满希望，也充满误解。“很多人会惊讶地发现，我们认为常识其实非常难，而且非常复杂。”他说。常识并不是百科式的事实集合，而是关于世界如何运作的一整套隐性假设。

他用一个极其生活化的例子来说明：刨丝器（cheese grater）。它有孔、有锋利的边缘、有一个在顶部的把手。问题在于，哪怕你拥有再完整的物体分类体系（taxonomy），也很难从中推导出：为什么把手一定在上面？为什么那些圆孔必须是锋利的？以及你在使用它时手应该放在哪里。

这些知识并不来自标签学习，而是来自对物理世界、目的和因果关系的理解。Marcus 借此强调：常识是“多种能力的集合体”，包括直觉物理、功能理解和目标推断。如果 AI 只能通过统计共现来学习，它很难自然获得这些能力。这也是他认为，仅靠扩大模型规模并不能自动涌现出常识的根本原因。

为什么“涌现”并不可靠：来自神经网络的反例

面对一个常见乐观观点——“足够大的神经网络终将涌现出抽象概念”——Marcus 明确表达了怀疑。“我对这种单纯依赖涌现的想法持怀疑态度。”他指出，深度学习研究者自己其实并不完全相信这种叙事。

他的理由很直接：卷积神经网络（CNN）中的“卷积”并不是自然涌现的，而是人类手工引入的结构性假设。它编码了局部性和平移不变性。如果这些先验真的可以完全靠数据学出来，那就没必要人为加入它们。“我们需要更多这样的结构性假设，而不是更少。”

Marcus 还分享了一个更早的个人实验：1998 年，他训练神经网络学习所有偶数，但模型始终无法泛化到奇数。“它们看到的世界，和我们看到的世界不一样。”这个故事成为他反复引用的证据——神经网络确实形成了内部表示，但这些表示既不透明，也未必对应人类可理解的抽象规则。

在深度学习之外：符号、主动学习与未完成的工作

Marcus 并不是反对深度学习本身。他承认，它“最大的优点在于可以在很少人类干预的情况下自动完成很多事情”。但问题在于，它不擅长表达抽象知识。为此，他和 Ernie Davis 曾专门写过论文，只是为了弄清楚一个看似简单的问题：什么是“容器”（container）。

在这点上，他与 Yann LeCun 的路线形成对比。LeCun 认为，关键在于设计一种能通过观看视频自我学习的无监督算法；而 Marcus 的直觉是，“我们必须去做另一种艰难的工作”——显式地建模知识结构。

他也警惕另一种极端：完全抛弃统计学习，转而全盘符号化。但他对 Geoffrey Hinton 关于“符号操作已经过时”的说法毫不客气，称这种立场“真的具有破坏性”。在 Marcus 看来，有些东西你永远不应该让机器自己去学——AI 必须在深度学习之外，引入符号表示、因果结构和人类积累的知识。

总结

Gary Marcus 的核心观点并不复杂：如果 AI 想走向真正的通用智能，仅靠更大的模型和更多的数据是不够的。常识、因果、符号和认知模型不是装饰品，而是基础设施。这段对话的价值，在于它提醒技术从业者：有些“慢而笨”的问题，可能恰恰是绕不过去的正路。

关键词：深度学习，常识推理，认知模型，符号AI，神经网络

事实核查备注：人物：Gary Marcus，Lex Fridman，Geoffrey Hinton，Yann LeCun，Ernie Davis；论文：《Deep Learning： A Critical Appraisal》；案例：1998年偶数/奇数神经网络实验；技术概念：深度学习、卷积、无监督学习、符号操作、常识推理。

返回文章列表