从马尔可夫决策到DQN：MIT课堂里的深度强化学习全景

AI PM 编辑部 · 2018年01月25日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一堂来自MIT的深度强化学习入门课。Lex Fridman以教学者而非布道者的姿态，从经典的马尔可夫决策过程讲起，一步步推导到深度Q网络，并结合Atari游戏和自动驾驶交通系统，解释为什么“几个看似微小的工程改动，改变了一整个领域”。

从马尔可夫决策到DQN：MIT课堂里的深度强化学习全景

这是一堂来自MIT的深度强化学习入门课。Lex Fridman以教学者而非布道者的姿态，从经典的马尔可夫决策过程讲起，一步步推导到深度Q网络，并结合Atari游戏和自动驾驶交通系统，解释为什么“几个看似微小的工程改动，改变了一整个领域”。

为什么强化学习值得被单独讨论

在课程一开始，Lex Fridman就点出一个背景：深度学习在感知领域（图像、语音）取得突破后，真正的挑战是“决策”。这正是强化学习（Reinforcement Learning， RL）存在的意义——智能体不是被动预测标签，而是在环境中通过试错学习如何行动。

他强调，强化学习之所以难，是因为数据分布由模型自己产生，错误决策会直接影响未来看到的数据。这一点与监督学习形成鲜明对比，也解释了为什么“更深的网络本身，并不能自动带来更聪明的决策系统”。这堂课的价值，正在于把强化学习从抽象概念，落到一套可以实现、可以调试的工程框架中。

Fridman在课堂中反复提醒学生：不要把强化学习当作魔法。“它是一组非常清晰的假设，只是这些假设在现实世界里经常被打破。”这种冷静的基调，奠定了整堂课务实、偏工程的风格。

马尔可夫决策过程：所有方法的共同骨架

理解强化学习，必须从马尔可夫决策过程（Markov Decision Process， MDP）开始。Fridman用教学者的耐心拆解了MDP的五个核心元素：状态、动作、奖励、状态转移概率和折扣因子。

他特别强调“马尔可夫性”的假设：当前状态包含了做出最优决策所需的全部信息。这在棋类或游戏环境中近似成立，但在真实世界（例如交通系统）中往往只是近似。正因为这个假设并不完美，后续所有算法都不可避免地要面对不稳定和偏差。

在这里，Fridman抛出一个重要观点：“一旦你接受MDP这个建模方式，你其实已经决定了问题能被解决到什么程度。”这句话点出了强化学习实践中的核心取舍——建模能力往往比算法细节更重要。

从价值函数到神经网络：Q-learning如何“变深”

课程的中段进入技术核心：价值函数与Q函数。价值函数描述“在某个状态下继续行动，长期能获得多少回报”，而Q函数进一步细化到“在某个状态下采取某个动作有多好”。

在早期强化学习中，Q函数常以表格形式存储，但这在状态空间稍大时就会彻底失效。Fridman在这里引出了关键转折：用神经网络来近似Q函数，也就是后来被称为Deep Q-Network（DQN）的方法。

他并没有把DQN包装成一次理论突破，而是坦率地指出问题：“如果你天真地把神经网络直接塞进Q-learning，几乎一定会发散。”随后，他通过伪代码讲解了经验回放（experience replay）和目标网络（target network）这两个工程技巧，并强调：“就是这些看起来很小的改动，让整个系统第一次真正稳定下来。”

Atari游戏：一个改变研究范式的实验场

为了验证DQN的能力，研究者选择了Atari 2600游戏作为统一测试平台。Fridman解释了这个选择的巧妙之处：输入是原始像素，输出是离散动作，既避免人工特征，又能横向比较不同算法。

在课堂中，他展示了DQN在多款Atari游戏上的表现提升，并指出一个常被忽视的事实：网络结构本身并不复杂，真正困难的是训练稳定性和样本效率。这也回应了他前面的观点——强化学习的突破，往往来自工程细节而非更深的网络。

他用一句话总结这段历史：“我们并没有教机器‘怎么玩游戏’，而是教它如何从失败中记住什么值得再试一次。”这句话很好地概括了强化学习的精神内核。

从游戏到现实：深度交通系统的启示

在课程后半段，Fridman将视角从游戏转向现实世界，介绍了基于强化学习的深度交通（Deep Traffic）系统。这一案例的重要性在于，它暴露了强化学习在现实环境中的安全与可解释性问题。

他展示了一个多车道驾驶场景，智能体需要在保证安全的前提下提高通行效率。与Atari不同，这里每一个错误动作都可能对应真实世界的风险。因此，系统中引入了额外的安全机制和约束，而不再是“纯粹最大化奖励”。

Fridman坦言，这类系统远未成熟，但它们提供了一个重要信号：强化学习并非只能存在于实验室。“一旦你开始考虑安全，你就会意识到，算法只是整个系统中最容易的一部分。”

总结

这堂MIT的深度强化学习课程，并不是一次炫技式的算法展示，而是一场关于“如何把学习系统真正跑起来”的经验分享。从MDP的建模假设，到DQN背后的工程细节，再到交通系统中的安全约束，Lex Fridman不断提醒听众：强化学习的难点不在公式，而在现实。对读者而言，最大的启发或许是——在这个领域，理解问题边界，比追逐最新模型更重要。

关键词：强化学习，深度Q网络，马尔可夫决策过程， Atari游戏，神经网络

事实核查备注：视频来源：MIT 6.S094；讲者：Lex Fridman；核心技术名词：Reinforcement Learning、Markov Decision Process、Q-learning、Deep Q-Network、Experience Replay、Target Network；案例：Atari 2600 游戏、Deep Traffic 系统；发布时间：2018-01-25

返回文章列表