从感知机到自动驾驶:MIT用一堂课讲清深度强化学习

AI PM 编辑部 · 2017年01月22日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

这篇文章还原了MIT 6.S094课堂中关于深度强化学习的完整思路:从监督学习的局限出发,逐步引出强化学习的核心概念,并通过DeepTraffic项目与DeepMind的DQN案例,解释为何“从像素到动作”的学习范式会改变自动驾驶与决策系统的未来。

从感知机到自动驾驶:MIT用一堂课讲清深度强化学习

这篇文章还原了MIT 6.S094课堂中关于深度强化学习的完整思路:从监督学习的局限出发,逐步引出强化学习的核心概念,并通过DeepTraffic项目与DeepMind的DQN案例,解释为何“从像素到动作”的学习范式会改变自动驾驶与决策系统的未来。

为什么强化学习值得一整门课?从DeepTraffic说起

这一讲一开始,Lex Fridman并没有急着讲公式,而是抛出了一个极具吸引力的任务:用深度强化学习解决交通问题。这个项目被命名为DeepTraffic,学生需要设计一个神经网络,让车辆在拥堵高速路上学会“聪明地开车”。他半开玩笑地说:“The winner gets a very special prize”,但真正的奖励其实是一次完整经历真实强化学习系统的机会。

这个设计本身就是一个重要洞见。交通问题并不是一个典型的监督学习任务——没有人能给出每一帧画面下的“标准操作”。正因为如此,它天然适合强化学习:系统只能通过奖励信号判断好坏。DeepTraffic把这一抽象问题压缩进浏览器中运行的仿真环境,让学生第一次直观感受到,强化学习不是论文里的概念,而是一种可以被工程化、被调试、甚至被比赛排名的技术。

在Lex看来,这也是这门课存在的意义:让学生意识到,深度学习并不等于图像分类,真正有挑战性的,是让模型在不确定环境中做连续决策。DeepTraffic只是一个起点,却把“感知—决策—反馈”的闭环完整呈现出来。

从监督学习的成功,到它不可避免的边界

在深入强化学习之前,Lex用相当长的时间回顾了监督学习的标准范式:数据、标签、特征、模型、训练、评估、部署。这一流程之所以重要,是因为“几乎所有目前真正可用的系统,核心都依赖监督学习”。无论是图像识别还是语音识别,本质都是在拟合一个已知答案的函数。

他用神经网络与感知机作为例子,从最基本的加权求和、偏置和阈值函数讲起,再通过NAND门展示感知机的表达能力。这一段看似基础,却为后面的转折埋下伏笔:单层感知机很强,但也有清晰的局限。正因为这些局限,才需要平滑的激活函数、可微的损失函数,以及反向传播来“学习”权重。

真正的转折点出现在他谈到泛化问题时。即便一个模型在训练集上表现完美,它依然可能在真实世界中失败。Lex直言:“That’s supervised learning… and that’s also where it breaks down.” 当任务不再是判断“这是不是数字7”,而是“下一秒该不该加速”,监督学习开始显得笨拙。强化学习正是在这里登场,成为一种更接近推理和决策的范式。

强化学习的核心:奖励、决策,以及不确定世界

Lex对强化学习的讲解,刻意避免神秘化。他把它拆解为几个直观的组件:agent(智能体)、state(状态)、action(动作)和reward(奖励)。智能体在环境中不断试错,通过奖励信号学习策略。这一过程通常被形式化为马尔可夫决策过程(MDP),但背后的直觉非常人类化——就像人学骑车一样。

在算法层面,他重点讲解了Q-Learning和Bellman方程。Q函数回答的是一个极其关键的问题:在某个状态下采取某个动作,长期来看值不值得?Bellman方程则把“长期价值”递归地拆解为“当前奖励+未来最优价值”。探索与利用的权衡,被epsilon-greedy策略具体化为一个简单但有效的工程选择。

Lex反复强调,这些并不是抽象的数学游戏,而是每一个强化学习系统必须面对的现实问题:你是继续尝试未知的动作,还是利用当前看起来最优的策略?这一张力,正是强化学习与现实世界高度相似的原因。

从Atari到自动驾驶:深度学习如何改变强化学习

真正让强化学习走向主流的,是深度学习的介入。Lex在课堂中引用了Google DeepMind在Atari游戏上的成果:Deep Q-Network(DQN)直接从像素输入到动作输出,实现端到端学习。他特别指出经验回放(experience replay)的重要性——通过打破时间相关性,让神经网络训练变得稳定。

这一思想被原封不动地带入DeepTraffic。车辆的感知被表示为一个网格化输入,动作空间被严格限制在安全范围内,奖励函数则鼓励更高的平均速度而非危险驾驶。学生可以在浏览器中实时训练模型,观察策略如何逐渐从“随机乱撞”变得平滑高效。

在课程结尾,Lex提到AlphaGo,并将其与自动驾驶联系起来。他的判断并不夸张也不煽情,而是冷静而克制:“这些系统真正令人兴奋的地方,在于它们开始在复杂、开放的环境中做出决策。”DeepTraffic只是一个教学项目,但它已经展示了未来自动驾驶系统的基本形态。

总结

这堂MIT课程的价值,不在于教会学生某一个算法,而在于建立一种思维方式:当问题无法被清晰标注时,如何让系统通过试错学习。通过从感知机、监督学习,一路推导到DQN与DeepTraffic,Lex Fridman让人看到深度强化学习并非魔法,而是一套逻辑严密、工程可落地的方法论。对读者而言,真正的启发在于:下一代智能系统的核心能力,很可能不再是“看懂世界”,而是“在世界中行动”。


关键词: 强化学习, 深度学习, 神经网络, DeepTraffic, Google DeepMind

事实核查备注: 课程名称:MIT 6.S094;讲者:Lex Fridman;项目名称:DeepTraffic;关键技术:感知机、反向传播、Q-Learning、Bellman方程、DQN、经验回放;案例公司:Google DeepMind;案例系统:Atari DQN、AlphaGo;视频发布时间:2017-01-22