Gary Marcus:为什么深度学习缺的不是规模,而是常识
正在加载视频...
视频章节
在与 Lex Fridman 的对话中,Gary Marcus 系统性地反思了深度学习的边界。他认为,当前 AI 最大的瓶颈不在算力或数据,而在缺乏“常识”和可解释的认知模型。本文提炼了他最关键的洞见、经典案例与争议观点。
Gary Marcus:为什么深度学习缺的不是规模,而是常识
在与 Lex Fridman 的对话中,Gary Marcus 系统性地反思了深度学习的边界。他认为,当前 AI 最大的瓶颈不在算力或数据,而在缺乏“常识”和可解释的认知模型。本文提炼了他最关键的洞见、经典案例与争议观点。
为什么深度学习的挑战不能单点解决
这段对话的起点,是 Gary Marcus 几年前那篇著名论文《Deep Learning: A Critical Appraisal》。Lex Fridman 一口气列出了其中的多个挑战:数据效率、迁移学习、层级知识、开放式推理、可解释性、因果推理、鲁棒性与对抗样本等。Marcus 的回应却出人意料——他拒绝挑出“最重要的一条”。
他解释说,这些问题并不是彼此独立的工程清单,而是纠缠在一起的系统性缺陷。“如果你没有真正的认知模型,很多问题看起来像是独立的,但实际上它们会一起失败。”在他看来,当前主流深度学习更像是对世界的统计近似,而不是理解。
这里的关键词是“认知模型”(cognitive models):一种解释系统如何理解日常世界的内部结构。如果 AI 只是在高维空间中拟合相关性,它在分布内任务上可能表现惊艳,但一旦环境变化,就会暴露出脆弱性。这也是 Marcus 特别强调“真实世界系统的可靠性和工程问题”的原因——不是因为它听起来更务实,而是因为它最终检验了所有其他能力是否真的存在。
“常识”不是简单知识,而是复杂的认知结构
当对话转向“常识”时,Marcus 特意提醒:这个词既充满希望,也充满误解。“很多人会惊讶地发现,我们认为常识其实非常难,而且非常复杂。”他说。常识并不是百科式的事实集合,而是关于世界如何运作的一整套隐性假设。
他用一个极其生活化的例子来说明:刨丝器(cheese grater)。它有孔、有锋利的边缘、有一个在顶部的把手。问题在于,哪怕你拥有再完整的物体分类体系(taxonomy),也很难从中推导出:为什么把手一定在上面?为什么那些圆孔必须是锋利的?以及你在使用它时手应该放在哪里。
这些知识并不来自标签学习,而是来自对物理世界、目的和因果关系的理解。Marcus 借此强调:常识是“多种能力的集合体”,包括直觉物理、功能理解和目标推断。如果 AI 只能通过统计共现来学习,它很难自然获得这些能力。这也是他认为,仅靠扩大模型规模并不能自动涌现出常识的根本原因。
为什么“涌现”并不可靠:来自神经网络的反例
面对一个常见乐观观点——“足够大的神经网络终将涌现出抽象概念”——Marcus 明确表达了怀疑。“我对这种单纯依赖涌现的想法持怀疑态度。”他指出,深度学习研究者自己其实并不完全相信这种叙事。
他的理由很直接:卷积神经网络(CNN)中的“卷积”并不是自然涌现的,而是人类手工引入的结构性假设。它编码了局部性和平移不变性。如果这些先验真的可以完全靠数据学出来,那就没必要人为加入它们。“我们需要更多这样的结构性假设,而不是更少。”
Marcus 还分享了一个更早的个人实验:1998 年,他训练神经网络学习所有偶数,但模型始终无法泛化到奇数。“它们看到的世界,和我们看到的世界不一样。”这个故事成为他反复引用的证据——神经网络确实形成了内部表示,但这些表示既不透明,也未必对应人类可理解的抽象规则。
在深度学习之外:符号、主动学习与未完成的工作
Marcus 并不是反对深度学习本身。他承认,它“最大的优点在于可以在很少人类干预的情况下自动完成很多事情”。但问题在于,它不擅长表达抽象知识。为此,他和 Ernie Davis 曾专门写过论文,只是为了弄清楚一个看似简单的问题:什么是“容器”(container)。
在这点上,他与 Yann LeCun 的路线形成对比。LeCun 认为,关键在于设计一种能通过观看视频自我学习的无监督算法;而 Marcus 的直觉是,“我们必须去做另一种艰难的工作”——显式地建模知识结构。
他也警惕另一种极端:完全抛弃统计学习,转而全盘符号化。但他对 Geoffrey Hinton 关于“符号操作已经过时”的说法毫不客气,称这种立场“真的具有破坏性”。在 Marcus 看来,有些东西你永远不应该让机器自己去学——AI 必须在深度学习之外,引入符号表示、因果结构和人类积累的知识。
总结
Gary Marcus 的核心观点并不复杂:如果 AI 想走向真正的通用智能,仅靠更大的模型和更多的数据是不够的。常识、因果、符号和认知模型不是装饰品,而是基础设施。这段对话的价值,在于它提醒技术从业者:有些“慢而笨”的问题,可能恰恰是绕不过去的正路。
关键词: 深度学习, 常识推理, 认知模型, 符号AI, 神经网络
事实核查备注: 人物:Gary Marcus,Lex Fridman,Geoffrey Hinton,Yann LeCun,Ernie Davis;论文:《Deep Learning: A Critical Appraisal》;案例:1998年偶数/奇数神经网络实验;技术概念:深度学习、卷积、无监督学习、符号操作、常识推理。