Yann LeCun:神经网络真的能学会推理吗?
正在加载视频...
视频章节
在这段与 Lex Fridman 的对话中,Yann LeCun 从学习与推理的根本冲突谈起,解释为何他坚持用连续函数和梯度学习重构“推理”。他借助人脑记忆结构、能量最小化与世界模型,描绘了一条不同于符号主义AI的长期路线。
Yann LeCun:神经网络真的能学会推理吗?
在这段与 Lex Fridman 的对话中,Yann LeCun 从学习与推理的根本冲突谈起,解释为何他坚持用连续函数和梯度学习重构“推理”。他借助人脑记忆结构、能量最小化与世界模型,描绘了一条不同于符号主义AI的长期路线。
推理不是逻辑:LeCun 对主流观念的正面挑战
为什么“神经网络能否推理”如此重要?因为这直接决定了AI未来是继续堆模型规模,还是需要一次范式转向。Yann LeCun的回答非常直接:“Yes, there’s no question about that.”在他看来,问题从来不是“能不能”,而是“怎么做”。
他首先挑战的是人们对推理的传统理解。长期以来,推理被等同为逻辑、符号和离散规则,而这些恰恰与梯度下降这种核心学习机制格格不入。LeCun毫不掩饰自己的立场:“不是我不喜欢离散数学,而是它和学习不兼容。”在他看来,真正可扩展的智能系统,必须建立在可学习的连续表示之上。
这也解释了为什么深度学习长期被部分计算机科学家“看不起”。传统算法追求严格可证明的正确性,而机器学习则容忍不精确、噪声和统计意义上的近似。LeCun甚至用一句极具画面感的话来概括:“Machine learning is the science of sloppiness.”这不是自嘲,而是一种方法论宣言:智能,来自不断逼近,而非一次到位的完美逻辑。
从人脑出发:推理系统必须拥有“工作记忆”
如果推理不是逻辑演绎,那它的工程形态应该是什么?LeCun选择从生物学出发,而不是数学公式。他指出,人脑至少有三种不同时间尺度的记忆:短暂的皮层状态(约20秒)、负责情景记忆的海马体,以及长期存储在突触中的记忆。
这个类比非常关键,因为它直接导出了一个结论:任何能推理的AI系统,都需要一个“海马体式”的工作记忆,用来暂存大量事实和事件。也正是在这个意义上,早期的 Memory Networks 和 Neural Turing Machines 被寄予厚望——它们尝试让神经网络“读写记忆”。
LeCun并没有回避现实的局限。他坦言,这类架构在规模化时问题重重,比如“如果记忆里装的是整个 Wikipedia,就几乎不可行”。即便是今天大放异彩的 Transformer,在他看来也只是“带有记忆幻觉”的系统:自注意力像记忆,但缺乏真正的可反复更新与演化的工作记忆。这正是他认为“还需要新想法”的地方。
链式推理与递归:为什么规模并不能解决一切
当前一个流行观点是:只要模型足够大,推理能力自然会“涌现”。LeCun对此明显保持怀疑。他指出,真正的推理是一种迭代过程——不断访问记忆、更新世界状态、再写回记忆,这本质上是一种递归操作。
而标准的 Transformer 架构,层数是固定的,这也意味着“推理步数”是硬编码的。它更像一次性的表示映射,而不是一个持续演化的认知过程。LeCun直言:“It’s not clear how you access and write into an associative memory in an efficient way.”这不是算力问题,而是架构问题。
这一判断在今天看来尤为耐人寻味。对话发生在2019年,远早于大模型推理能力被广泛讨论之前,但他已经清楚指出:没有可扩展的记忆读写机制,仅靠参数规模,很难支撑真正长期、复杂的推理。
另一条路:能量最小化、世界模型与规划式推理
除了“符号 vs 神经网络”的老问题,LeCun还提出了另一种常被忽视的推理形式:规划。这里的推理,不是语言中的“因为所以”,而是行动中的“如何达成目标”。
他用最优控制和能量最小化来解释这一点:系统拥有一个世界模型,知道动作会带来什么后果,然后通过最小化能量函数,规划出一系列最优动作。这正是模型预测控制(Model Predictive Control)在机器人和控制理论中的核心思想。
在LeCun看来,人类推理能力的进化基础,正来自这种为生存服务的规划能力——如何狩猎、如何熬过冬天。语言和逻辑,可能是后来叠加的抽象层。这一视角,将“推理”从符号操作,重新拉回到与物理世界互动的连续过程。
抛弃符号,用向量思考:与 Hinton 的长期共识
当话题回到专家系统、知识图谱和逻辑规则时,LeCun的态度依旧鲜明:这些表示方式“too rigid, too brittle”。即便引入概率,发展成贝叶斯网络和图模型,核心问题仍然存在——知识获取依赖人工编码,且难以与学习系统深度融合。
在这一点上,他与 Geoffrey Hinton 形成了长期共识:用向量取代符号,用连续函数取代逻辑。LeCun引用了 Facebook 研究员 Léon Bottou 的论文《From Machine Learning to Machine Reasoning》,其核心思想是:系统应在同一个向量空间中读入、变换、再写回对象。
这并不意味着否定逻辑本身。LeCun承认,基础逻辑操作“quite possibly”可以被学出来。真正的分歧在于:需要多少先验结构?这正是他与 Gary Marcus 等人持续争论的焦点。
总结
这段对话的价值,不在于给出“神经网络如何推理”的答案,而在于明确了哪些路可能走不通。LeCun反复强调:推理必须是可学习、可扩展、连续的过程,而不是脆弱的符号拼装。对今天的读者而言,这既是一种技术判断,也是一种提醒——当我们惊叹模型能力时,真正困难的问题,也许才刚刚开始。
关键词: Yann LeCun, 神经网络推理, 工作记忆, Transformer, 世界模型
事实核查备注: 人物:Yann LeCun、Lex Fridman、Geoffrey Hinton、Léon Bottou、Gary Marcus;时间:视频发布于2019-09-01;核心概念:梯度学习、连续函数、工作记忆、海马体类比、Memory Networks、Neural Turing Machines、Transformer、自注意力、能量最小化、模型预测控制;引用观点均来自视频原话或直接转述。