Yann LeCun：神经网络真的能学会推理吗？

AI PM 编辑部 · 2019年09月01日 · 8 阅读 · AI/人工智能

Geoffrey Hinton Embedding 机器学习深度学习神经网络推理 Transformer 世界模型注意力机制 AI推理

正在加载视频...

视频章节

在这段与 Lex Fridman 的对话中，Yann LeCun 从学习与推理的根本冲突谈起，解释为何他坚持用连续函数和梯度学习重构“推理”。他借助人脑记忆结构、能量最小化与世界模型，描绘了一条不同于符号主义AI的长期路线。

Yann LeCun：神经网络真的能学会推理吗？

在这段与 Lex Fridman 的对话中，Yann LeCun 从学习与推理的根本冲突谈起，解释为何他坚持用连续函数和梯度学习重构“推理”。他借助人脑记忆结构、能量最小化与世界模型，描绘了一条不同于符号主义AI的长期路线。

推理不是逻辑：LeCun 对主流观念的正面挑战

为什么“神经网络能否推理”如此重要？因为这直接决定了AI未来是继续堆模型规模，还是需要一次范式转向。Yann LeCun的回答非常直接：“Yes， there’s no question about that.”在他看来，问题从来不是“能不能”，而是“怎么做”。

他首先挑战的是人们对推理的传统理解。长期以来，推理被等同为逻辑、符号和离散规则，而这些恰恰与梯度下降这种核心学习机制格格不入。LeCun毫不掩饰自己的立场：“不是我不喜欢离散数学，而是它和学习不兼容。”在他看来，真正可扩展的智能系统，必须建立在可学习的连续表示之上。

这也解释了为什么深度学习长期被部分计算机科学家“看不起”。传统算法追求严格可证明的正确性，而机器学习则容忍不精确、噪声和统计意义上的近似。LeCun甚至用一句极具画面感的话来概括：“Machine learning is the science of sloppiness.”这不是自嘲，而是一种方法论宣言：智能，来自不断逼近，而非一次到位的完美逻辑。

从人脑出发：推理系统必须拥有“工作记忆”

如果推理不是逻辑演绎，那它的工程形态应该是什么？LeCun选择从生物学出发，而不是数学公式。他指出，人脑至少有三种不同时间尺度的记忆：短暂的皮层状态（约20秒）、负责情景记忆的海马体，以及长期存储在突触中的记忆。

这个类比非常关键，因为它直接导出了一个结论：任何能推理的AI系统，都需要一个“海马体式”的工作记忆，用来暂存大量事实和事件。也正是在这个意义上，早期的 Memory Networks 和 Neural Turing Machines 被寄予厚望——它们尝试让神经网络“读写记忆”。

LeCun并没有回避现实的局限。他坦言，这类架构在规模化时问题重重，比如“如果记忆里装的是整个 Wikipedia，就几乎不可行”。即便是今天大放异彩的 Transformer，在他看来也只是“带有记忆幻觉”的系统：自注意力像记忆，但缺乏真正的可反复更新与演化的工作记忆。这正是他认为“还需要新想法”的地方。

链式推理与递归：为什么规模并不能解决一切

当前一个流行观点是：只要模型足够大，推理能力自然会“涌现”。LeCun对此明显保持怀疑。他指出，真正的推理是一种迭代过程——不断访问记忆、更新世界状态、再写回记忆，这本质上是一种递归操作。

而标准的 Transformer 架构，层数是固定的，这也意味着“推理步数”是硬编码的。它更像一次性的表示映射，而不是一个持续演化的认知过程。LeCun直言：“It’s not clear how you access and write into an associative memory in an efficient way.”这不是算力问题，而是架构问题。

这一判断在今天看来尤为耐人寻味。对话发生在2019年，远早于大模型推理能力被广泛讨论之前，但他已经清楚指出：没有可扩展的记忆读写机制，仅靠参数规模，很难支撑真正长期、复杂的推理。

另一条路：能量最小化、世界模型与规划式推理

除了“符号 vs 神经网络”的老问题，LeCun还提出了另一种常被忽视的推理形式：规划。这里的推理，不是语言中的“因为所以”，而是行动中的“如何达成目标”。

他用最优控制和能量最小化来解释这一点：系统拥有一个世界模型，知道动作会带来什么后果，然后通过最小化能量函数，规划出一系列最优动作。这正是模型预测控制（Model Predictive Control）在机器人和控制理论中的核心思想。

在LeCun看来，人类推理能力的进化基础，正来自这种为生存服务的规划能力——如何狩猎、如何熬过冬天。语言和逻辑，可能是后来叠加的抽象层。这一视角，将“推理”从符号操作，重新拉回到与物理世界互动的连续过程。

抛弃符号，用向量思考：与 Hinton 的长期共识

当话题回到专家系统、知识图谱和逻辑规则时，LeCun的态度依旧鲜明：这些表示方式“too rigid， too brittle”。即便引入概率，发展成贝叶斯网络和图模型，核心问题仍然存在——知识获取依赖人工编码，且难以与学习系统深度融合。

在这一点上，他与 Geoffrey Hinton 形成了长期共识：用向量取代符号，用连续函数取代逻辑。LeCun引用了 Facebook 研究员 Léon Bottou 的论文《From Machine Learning to Machine Reasoning》，其核心思想是：系统应在同一个向量空间中读入、变换、再写回对象。

这并不意味着否定逻辑本身。LeCun承认，基础逻辑操作“quite possibly”可以被学出来。真正的分歧在于：需要多少先验结构？这正是他与 Gary Marcus 等人持续争论的焦点。

总结

这段对话的价值，不在于给出“神经网络如何推理”的答案，而在于明确了哪些路可能走不通。LeCun反复强调：推理必须是可学习、可扩展、连续的过程，而不是脆弱的符号拼装。对今天的读者而言，这既是一种技术判断，也是一种提醒——当我们惊叹模型能力时，真正困难的问题，也许才刚刚开始。

关键词： Yann LeCun，神经网络推理，工作记忆， Transformer，世界模型

事实核查备注：人物：Yann LeCun、Lex Fridman、Geoffrey Hinton、Léon Bottou、Gary Marcus；时间：视频发布于2019-09-01；核心概念：梯度学习、连续函数、工作记忆、海马体类比、Memory Networks、Neural Turing Machines、Transformer、自注意力、能量最小化、模型预测控制；引用观点均来自视频原话或直接转述。

返回文章列表