David Silver眼中的深度强化学习：智能从行动中诞生

AI PM 编辑部 · 2020年05月06日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一篇基于DeepMind研究员David Silver与Lex Fridman对话的深度文章，系统梳理了强化学习与深度强化学习的核心思想、方法分解，以及神经网络为何成为突破关键，同时保留了他对AI历史、未来与人类直觉局限的独特反思。

David Silver眼中的深度强化学习：智能从行动中诞生

这是一篇基于DeepMind研究员David Silver与Lex Fridman对话的深度文章，系统梳理了强化学习与深度强化学习的核心思想、方法分解，以及神经网络为何成为突破关键，同时保留了他对AI历史、未来与人类直觉局限的独特反思。

为什么强化学习被称为“智能的基本问题”

理解强化学习为何重要，关键在于它试图解决的问题本身。David Silver在对话一开始就刻意“后退一步”，重新定义强化学习：它不是某个算法，而是“研究智能的科学问题本身”。在他的描述中，强化学习关注的是一个智能体（agent）如何在环境中生存：它采取行动，环境发生变化，智能体接收新的观察，以及一个极其特殊的信号——奖励。

他用极其朴素但有力的方式概括这个目标：“强化学习问题就是，在时间维度上采取一系列行动，最大化奖励信号。”这句话之所以重要，是因为它把智能从规则、知识或推理中抽离出来，重新锚定在行为与结果之间的闭环上。

在这里，世界被抽象为环境，智能被抽象为决策过程。Silver强调，这一定义本身是“雄心勃勃的”，因为它试图覆盖一切：动物、人类、甚至未来的机器智能。也正因为如此，它天然地复杂、困难，甚至一度让人怀疑是否可解。

这种表达方式透露出一个重要洞见：强化学习不是某个工程技巧，而是一种对“什么是智能”这一问题的最小假设。只要存在行动、反馈和目标，强化学习就适用。这也是它在DeepMind等机构中被视为通向通用智能的重要路径的原因。

把不可能的问题拆解：价值、策略与模型

如果说强化学习的问题定义近乎“无法直接求解”，那Silver真正关心的，是人们如何在实践中逼近它。他给出的答案不是某个具体算法，而是一种思维方式：分解。

他提出，可以把智能体“脑海中的结构”拆成几个常见组件。第一个是价值函数（value function），用于预测未来能获得多少奖励；第二个是策略（policy），决定在当前状态下该采取什么行动；第三个是模型（model），尝试预测环境将如何响应行动。

这些组件并非都必须显式存在，但它们构成了强化学习方法的主要分类依据：有的方法偏向价值，有的偏向策略，有的依赖模型。Silver并没有把这些分法神圣化，反而提出一个耐人寻味的问题：这些差异真的是“本质上的不同”，还是只是解决同一问题的不同工程路径？

他的回答偏向后者。在更高的抽象层面，真正根本的一步是承认：面对一个复杂到无法穷举规则的世界，系统必须“为自己学习如何行动”。正如他说的，世界的复杂性大到“你甚至无法想象如何手工构建一个理解它的系统”。这也是为什么学习，而不是编程规则，成为第一性原则。

深度强化学习的真正突破：让系统自己表示世界

当问题被拆解之后，下一个现实障碍立刻出现：智能体如何处理源源不断、维度极高的感知输入？Silver在这里自然引出了深度强化学习。

他的定义非常克制：深度强化学习，只是强化学习众多解法中的一个家族，它的特点是使用神经网络来表示价值函数、策略或模型。神经网络的关键优势在于“表示能力”——它们被视为通用函数逼近器，理论上可以表示任何复杂函数。

但Silver真正流露出情感的地方，是当他谈到这件事“竟然真的奏效”。他形容这种感觉“美得令人惊讶”。面对一个拥有数十亿维参数空间的系统，人类几乎无法形成直觉，但这些网络却能在实践中学会复杂行为。

他并不认为强化学习本身的成功令人意外，因为“我们已经有智能存在的例子”。真正反直觉的，是神经网络在如此高维空间中的优化能力。这也为后面的历史反思埋下伏笔。

从AI寒冬到未来回望：人类直觉的局限

在谈到神经网络为何曾被放弃时，Silver给出了一个极具洞察力的解释。他认为，AI寒冬并不完全是方法错误，而是人类直觉的失败。早期研究者只能构建拥有几十个节点的低维网络，而人类恰好擅长理解低维空间。

问题在于，当维度跃迁到数百万、数十亿时，人类的空间直觉彻底失效。正如Silver所说，我们习惯于三维世界，却要去想象“一个十亿维的优化表面”，这几乎不可能。这种认知断层，让人们低估了高维系统中可能出现的结构性。

对话的最后，他抛出了一个近乎哲学的问题：当未来出现超人类智能时，它们会如何评价我们今天的算法？是把它们当作天真的起步，还是依然视为根本思想？Silver笑着说，也许它们会回看这段对话，“微笑，甚至笑出声”。

这种幽默背后，是一种谦逊：我们也许并不完全理解自己正在使用的工具，但它们已经在带我们走向前所未有的智能形态。

总结

David Silver的分享并没有炫技式地展示算法细节，而是回到更本质的问题：什么是智能，我们凭什么相信机器可以学会它。这段对话的价值，在于它揭示了强化学习的雄心、深度学习的反直觉成功，以及人类认知在高维世界中的天然盲区。对读者而言，最大的启发或许是：真正重要的突破，往往发生在我们还没来得及完全理解它的时候。

关键词：强化学习，深度强化学习， AI Agent，神经网络， David Silver

事实核查备注： David Silver为DeepMind研究员；视频发布于2020-05-06；核心概念包括强化学习、价值函数（value function）、策略（policy）、模型（model）、深度强化学习；关于AI寒冬的讨论聚焦于神经网络维度与人类直觉局限；引用内容均来自视频原话或其直译。

返回文章列表