卡尼曼谈AI：深度学习像“系统一”，但离理解世界还很远

AI PM 编辑部 · 2020年01月16日 · 10 阅读 · AI/人工智能

Yann LeCun 少样本学习机器学习深度学习神经网络无监督学习 AI推理 Google DeepMind

正在加载视频...

视频章节

诺贝尔奖得主丹尼尔·卡尼曼在与Lex Fridman的对话中，用“系统一/系统二”框架重新审视当代AI。他认为深度学习取得了惊人的速度型成功，却仍缺乏因果、意义与世界理解能力。这场对话为理解AI的边界与下一步提供了极具洞见的视角。

卡尼曼谈AI：深度学习像“系统一”，但离理解世界还很远

诺贝尔奖得主丹尼尔·卡尼曼在与Lex Fridman的对话中，用“系统一/系统二”框架重新审视当代AI。他认为深度学习取得了惊人的速度型成功，却仍缺乏因果、意义与世界理解能力。这场对话为理解AI的边界与下一步提供了极具洞见的视角。

为什么用“系统一/系统二”看AI，能看得更清楚？

卡尼曼最重要的贡献之一，是提出人类思维分为“系统一”和“系统二”：前者快速、直觉、依赖模式匹配；后者缓慢、需要努力、负责推理与反思。他在这段访谈中指出，当下的深度学习，本质上是一个“系统一的产物”。这为什么重要？因为这直接解释了为什么AI在某些任务上惊艳，在另一些任务上却显得笨拙。

卡尼曼明确说：“深度学习匹配模式、预测接下来会发生什么，它是高度预测性的。”这正是系统一的强项。但他紧接着补充了一个关键限制：深度学习“没有推理能力，没有系统二，更重要的是，它没有因果性，也无法表示意义或真实的互动”。这不是对工程成果的否定，而是对能力边界的精准定位。

这种区分让很多争论变得清晰：当我们惊叹模型在翻译、识别、博弈中的表现时，其实是在见证系统一被工程化、规模化的结果；而当我们期待AI“理解”“解释”“知道自己在做什么”时，我们是在无意中要求系统二。卡尼曼的判断是，在因果与意义没有被解决之前，AI“会非常令人兴奋，但终究是有限的”。

速度，才是这一代AI最让人震撼的地方

如果说能力边界令人冷静，那么AI发展的速度则让卡尼曼感到真正震撼。他坦言，最让他印象深刻的不是“能不能做到”，而是“做到得有多快”。从计算机击败人类棋手，到AlphaGo战胜围棋冠军，再到AlphaGo Zero几乎从零开始自我对弈，这一连串跃迁的节奏“让人眼花缭乱”。

他用“bewildering（令人困惑）”来形容从AlphaGo到AlphaGo Zero的转变速度。这背后的共同点，并不是引入了类似人类推理的机制，而是把系统一式的模式学习推向极致：海量数据、自我博弈、快速迭代。卡尼曼认可这一路线解决了“很多、很多问题”。

但转折也在这里出现。他强调，有些问题“需要别的东西”，比如推理能力。心理学家Gary Marcus提出的批评被他明确点名并部分认同：人类，尤其是儿童，不需要上百万样本，只用“两三个例子”就能学会新概念。这种少样本学习（few-shot learning）的能力，揭示了人类学习机制与当代机器学习之间的根本差异。卡尼曼的判断是：要让机器学得快，必须“预先在机器中构建一些期待或结构”，而这一点，“目前似乎还没有解决”。

神经网络会撞墙吗？卡尼曼站在“会”的那一边

在AI研究界，一个长期存在的分歧是：现有神经网络架构，是否最终能自然“长出”推理与因果能力？卡尼曼明确表态，他更倾向于多数派观点——会遇到上限。他提到与Yann LeCun的不同看法：LeCun认为，系统一式的模式匹配，可能在不发生重大架构变革的情况下，逐渐看起来像系统二。

卡尼曼并不完全认同。他认为，当前网络在无监督学习上的局限是显而易见的，而因果性、时间因果尤其“几乎对所有人来说都遥不可及”。他很欣赏LeCun提出的一个比喻：我们只能看到前面一两座山峰，后面可能还有几座，也可能有成千上万座。但即便如此，卡尼曼依然判断，“最终的答案不太可能从根本上看起来和我们现在的系统一样”。

这不是悲观，而是一种心理学家的谨慎。他提醒听众：过去的AI曾尝试以“纯推理系统”为核心，结果收效甚微；而深度学习的成功，恰恰来自放弃显式推理、拥抱模式。但正因为如此，它可能也正在逼近自己的天花板。

没有“落地”的智能：为什么AI还不懂自己在说什么

卡尼曼提出了一个对今天依然尖锐的问题：为什么翻译系统做得这么好，却“并不知道自己在说什么”？他的回答直指“语义落地”（grounding）问题——AI缺乏与真实世界的感知和互动。

他直言：“你会得到一台并不知道自己在谈论什么的机器。”要让词语真正有意义，AI可能需要感知系统，甚至某种形式的“觉知”。他并不确定机器是否一定需要像人一样的身体，但他非常肯定：感知是必要的。没有感知，就无法积累关于世界的知识。

一个有趣的转折是，他举了“完全瘫痪的人类”的例子：即便无法行动，大脑仍然可以学习很多东西。这意味着，关键也许不在于身体本身，而在于通过感知和反馈建立世界模型。进一步，他谈到“主动学习”（active learning）：像婴儿一样，通过行动预测后果。婴儿挥动手臂、操纵物体，正是在学习“如果我这么做，世界会怎样变”。卡尼曼认为，具备这种“通过行动学习世界”的系统，才真正接近完整智能。

自动驾驶与行人：一个关于“理解还是预测”的真实难题

讨论最终落到了一个极其具体、也极其现实的场景：自动驾驶中的行人。卡尼曼分享了一个生动的故事——当他过马路时，会先与司机对视；一旦决定走出去，他反而会把目光移开。这是一个信号：“我已经承诺了，你得停。”

他指出，这是一种微妙的“博弈”，几乎像一场胆小鬼游戏（game of chicken）。问题来了：自动驾驶系统需要“理解”人的心理和意图吗，还是只需要足够好的预测？卡尼曼一开始以为，像围棋一样，强预测就够了，“有大量预期，但零理解”。

但在深入讨论后，他承认：如果要真正安全地与行人共处，系统可能确实需要一个“人类模型”。不仅把行人当作障碍物，而是当作会互动的代理。这让问题陡然变难。他的结论并不轻松：“每一次有人试图解决它，都会发现它比想象中更难。”这也再次印证了他的核心观点：系统一能走得很远，但有些场景，逼着我们直面系统二的缺席。

总结

卡尼曼并未否认AI的辉煌成就，相反，他对深度学习的速度与工程奇迹充满敬意。但作为心理学家，他不断提醒我们区分“预测”和“理解”。当下AI是被极度放大的系统一：快速、有效、但缺乏因果与意义。真正困难、也真正有价值的挑战，在于如何让机器学得更像孩子，理解世界，而不仅仅是押中下一个模式。

关键词：系统一，系统二，深度学习， AI推理，少样本学习

事实核查备注：涉及人物：Daniel Kahneman， Lex Fridman， Yann LeCun， Gary Marcus；涉及公司：Google DeepMind；技术概念：System 1 / System 2，深度学习，因果性，少样本学习（few-shot learning），无监督学习，主动学习（active learning）；案例：AlphaGo， AlphaGo Zero；观点：当前深度学习更接近系统一，缺乏因果与语义落地能力。

返回文章列表