模型越准,强化学习越难?OpenAI 实习生给出的反直觉答案

AI PM 编辑部 · 2018年09月11日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为“学会世界模型,强化学习就起飞了”,这场 OpenAI 内部分享会当头泼了一盆冷水。Alex Botev 用真实的机器人实验告诉你:模型不是越强越好,关键在于怎么用。更重要的是,他给出了一条现实可行的折中路线。

模型越准,强化学习越难?OpenAI 实习生给出的反直觉答案

如果你以为“学会世界模型,强化学习就起飞了”,这场 OpenAI 内部分享会当头泼了一盆冷水。Alex Botev 用真实的机器人实验告诉你:模型不是越强越好,关键在于怎么用。更重要的是,他给出了一条现实可行的折中路线。

强化学习里,最诱人的“谎言”:有了模型,就不用再试错

在强化学习圈子里,模型(world model)一直像“圣杯”。如果你能学到一个完美的环境动力学模型,理论上你甚至可以不再和真实环境交互,直接在模型里规划、搜索、优化策略——任务想换就换,奖励函数想改就改。

Alex Botev 一上来就点破了这个诱惑:模型式强化学习之所以让人着迷,不是因为它更聪明,而是因为它看起来能绕开最昂贵的东西——真实交互数据。相比 model-free 方法只能靠 reward 一步步试,model-based 方法还能用监督学习训练动力学模型,稳定、好收敛、还能复用。

但问题在于,这个“完美模型”的前提,几乎从未成立。现实世界里的机器人、连续控制系统,任何一点小误差,在时间轴上都会被不断放大。你以为在做规划,实际上是在用一个越来越跑偏的世界做梦。

模型不是万能钥匙,而是一个会“复利放大错误”的工具

Botev 在分享中花了不少时间讲“为什么模型这么难”。最致命的问题只有四个字:误差叠加

单步预测看起来不错,但一旦你把模型自己预测的结果再喂回模型,误差就开始指数级增长。视频里那个对比非常直观:
- 一种做法,每预测一步就“落地”到真实环境再继续;
- 另一种做法,让模型完全自嗨、连续 rollout。

结果是后者迅速发散,几步之后已经完全不像真实世界。

更糟的是:
- 并不是环境的所有状态维度都和任务有关;
- 神经网络模型的不确定性极难估计
- 为了学一个“足够准”的模型,你往往需要和直接学策略差不多多的数据

这直接戳破了一个行业迷思:model-based RL 并不天然更省样本。它只是把难度,从“学策略”换成了“学世界”。

真正聪明的做法:别替代 model-free,而是“偷偷增强”它

Botev 的核心贡献不在于再造一个世界模型,而在于一个极其工程化、却非常有效的想法:Value Expansion(价值展开)

在标准 actor-critic 里,Q 值目标来自一步 bootstrapping,噪声大、方差高。而 Value Expansion 的思路是:

不指望模型跑完整条未来,只让它多跑几步,帮你构造更好的训练目标

具体来说:
- 先用离线数据训练动力学模型;
- 再用模型 rollout 多步,构造多步 on-policy target;
- 不需要 importance sampling;
- 最终还是在 model-free 框架里更新 actor 和 critic。

这是一种极其务实的姿态:我不相信模型能替我做决策,但我相信它能让我算得更准一点。

机器人实验给出的残酷结论:能赢,但非常挑剔

在 Fetch Reach、Pick&Place、Push、Slide 等经典机器人任务中,结果相当耐人寻味:

  • 使用 Value Expansion 的方法,在部分任务上样本效率最高提升 5 倍
  • 但模型极度依赖技巧和设置,单一动力学模型几乎从不奏效;
  • ensemble 是刚需,不是锦上添花;
  • 多步 loss 训练动力学模型是必要条件;
  • 价值展开超过 1–2 步,效果才真正显现;
  • 在复杂环境中,对不同 horizon 的 target 取最小值(悲观估计),效果更稳,类似 Double Q 的思想。

还有一个反直觉的发现:确定性模型在长 horizon 上,反而比随机模型更好用。后者通常只能做单步预测,多步就失控。

最终答案:模型不会拯救你,但会让你更像专家

在渐近性能上,model-based + value expansion 并非全面胜出:
- 有的环境略好;
- 有的持平;
- 有的甚至略差。

Botev 给出的解决方式也非常“工程师”:插值。在真实的一步 target 和模型展开的多步 target 之间动态平衡,既吃模型红利,又避免被它拖下水。

这不是一个“革命性胜利”的故事,而是一份冷静、成熟的研究结论:世界模型很强,但前提是你承认它不完美。

总结

这场分享最重要的价值,并不是某个具体算法,而是一种思维方式:别幻想用模型取代现实,而要让模型在你最脆弱的地方补一刀。对从业者来说,如果你在做连续控制或机器人,Value Expansion、ensemble 动力学模型、悲观估计,都是可以立刻尝试的工具。更大的启发是——真正先进的 RL 系统,往往不是“model-free vs model-based”的胜负,而是两者边界被精心设计过的融合。


关键词: 模型式强化学习, 连续控制, 世界模型, Value Expansion, 机器人学习

事实核查备注: 需要核查:演讲者姓名 Alexander Botev;演讲时间与场合(2018 OpenAI Summer Intern Open House);实验环境为 Fetch 系列任务;样本效率提升“最高 5 倍”的具体对比基线;Value Expansion 是否为当时的正式论文名称