从感知机到自动驾驶：MIT用一堂课讲清深度强化学习

AI PM 编辑部 · 2017年01月22日 · 5 阅读 · AI/人工智能

强化学习计算机视觉文字识别模型训练模型部署机器学习深度学习神经网络推理无监督学习

正在加载视频...

视频章节

这篇文章还原了MIT 6.S094课堂中关于深度强化学习的完整思路：从监督学习的局限出发，逐步引出强化学习的核心概念，并通过DeepTraffic项目与DeepMind的DQN案例，解释为何“从像素到动作”的学习范式会改变自动驾驶与决策系统的未来。

从感知机到自动驾驶：MIT用一堂课讲清深度强化学习

这篇文章还原了MIT 6.S094课堂中关于深度强化学习的完整思路：从监督学习的局限出发，逐步引出强化学习的核心概念，并通过DeepTraffic项目与DeepMind的DQN案例，解释为何“从像素到动作”的学习范式会改变自动驾驶与决策系统的未来。

为什么强化学习值得一整门课？从DeepTraffic说起

这一讲一开始，Lex Fridman并没有急着讲公式，而是抛出了一个极具吸引力的任务：用深度强化学习解决交通问题。这个项目被命名为DeepTraffic，学生需要设计一个神经网络，让车辆在拥堵高速路上学会“聪明地开车”。他半开玩笑地说：“The winner gets a very special prize”，但真正的奖励其实是一次完整经历真实强化学习系统的机会。

这个设计本身就是一个重要洞见。交通问题并不是一个典型的监督学习任务——没有人能给出每一帧画面下的“标准操作”。正因为如此，它天然适合强化学习：系统只能通过奖励信号判断好坏。DeepTraffic把这一抽象问题压缩进浏览器中运行的仿真环境，让学生第一次直观感受到，强化学习不是论文里的概念，而是一种可以被工程化、被调试、甚至被比赛排名的技术。

在Lex看来，这也是这门课存在的意义：让学生意识到，深度学习并不等于图像分类，真正有挑战性的，是让模型在不确定环境中做连续决策。DeepTraffic只是一个起点，却把“感知—决策—反馈”的闭环完整呈现出来。

从监督学习的成功，到它不可避免的边界

在深入强化学习之前，Lex用相当长的时间回顾了监督学习的标准范式：数据、标签、特征、模型、训练、评估、部署。这一流程之所以重要，是因为“几乎所有目前真正可用的系统，核心都依赖监督学习”。无论是图像识别还是语音识别，本质都是在拟合一个已知答案的函数。

他用神经网络与感知机作为例子，从最基本的加权求和、偏置和阈值函数讲起，再通过NAND门展示感知机的表达能力。这一段看似基础，却为后面的转折埋下伏笔：单层感知机很强，但也有清晰的局限。正因为这些局限，才需要平滑的激活函数、可微的损失函数，以及反向传播来“学习”权重。

真正的转折点出现在他谈到泛化问题时。即便一个模型在训练集上表现完美，它依然可能在真实世界中失败。Lex直言：“That’s supervised learning… and that’s also where it breaks down.” 当任务不再是判断“这是不是数字7”，而是“下一秒该不该加速”，监督学习开始显得笨拙。强化学习正是在这里登场，成为一种更接近推理和决策的范式。

强化学习的核心：奖励、决策，以及不确定世界

Lex对强化学习的讲解，刻意避免神秘化。他把它拆解为几个直观的组件：agent（智能体）、state（状态）、action（动作）和reward（奖励）。智能体在环境中不断试错，通过奖励信号学习策略。这一过程通常被形式化为马尔可夫决策过程（MDP），但背后的直觉非常人类化——就像人学骑车一样。

在算法层面，他重点讲解了Q-Learning和Bellman方程。Q函数回答的是一个极其关键的问题：在某个状态下采取某个动作，长期来看值不值得？Bellman方程则把“长期价值”递归地拆解为“当前奖励+未来最优价值”。探索与利用的权衡，被epsilon-greedy策略具体化为一个简单但有效的工程选择。

Lex反复强调，这些并不是抽象的数学游戏，而是每一个强化学习系统必须面对的现实问题：你是继续尝试未知的动作，还是利用当前看起来最优的策略？这一张力，正是强化学习与现实世界高度相似的原因。

从Atari到自动驾驶：深度学习如何改变强化学习

真正让强化学习走向主流的，是深度学习的介入。Lex在课堂中引用了Google DeepMind在Atari游戏上的成果：Deep Q-Network（DQN）直接从像素输入到动作输出，实现端到端学习。他特别指出经验回放（experience replay）的重要性——通过打破时间相关性，让神经网络训练变得稳定。

这一思想被原封不动地带入DeepTraffic。车辆的感知被表示为一个网格化输入，动作空间被严格限制在安全范围内，奖励函数则鼓励更高的平均速度而非危险驾驶。学生可以在浏览器中实时训练模型，观察策略如何逐渐从“随机乱撞”变得平滑高效。

在课程结尾，Lex提到AlphaGo，并将其与自动驾驶联系起来。他的判断并不夸张也不煽情，而是冷静而克制：“这些系统真正令人兴奋的地方，在于它们开始在复杂、开放的环境中做出决策。”DeepTraffic只是一个教学项目，但它已经展示了未来自动驾驶系统的基本形态。

总结

这堂MIT课程的价值，不在于教会学生某一个算法，而在于建立一种思维方式：当问题无法被清晰标注时，如何让系统通过试错学习。通过从感知机、监督学习，一路推导到DQN与DeepTraffic，Lex Fridman让人看到深度强化学习并非魔法，而是一套逻辑严密、工程可落地的方法论。对读者而言，真正的启发在于：下一代智能系统的核心能力，很可能不再是“看懂世界”，而是“在世界中行动”。

关键词：强化学习，深度学习，神经网络， DeepTraffic， Google DeepMind

事实核查备注：课程名称：MIT 6.S094；讲者：Lex Fridman；项目名称：DeepTraffic；关键技术：感知机、反向传播、Q-Learning、Bellman方程、DQN、经验回放；案例公司：Google DeepMind；案例系统：Atari DQN、AlphaGo；视频发布时间：2017-01-22

返回文章列表