模型越准，强化学习越难？OpenAI 实习生给出的反直觉答案

AI PM 编辑部 · 2018年09月11日 · 3 阅读 · AI/人工智能

世界模型推理强化学习神经网络无监督学习监督学习模型训练

正在加载视频...

视频章节

如果你以为“学会世界模型，强化学习就起飞了”，这场 OpenAI 内部分享会当头泼了一盆冷水。Alex Botev 用真实的机器人实验告诉你：模型不是越强越好，关键在于怎么用。更重要的是，他给出了一条现实可行的折中路线。

模型越准，强化学习越难？OpenAI 实习生给出的反直觉答案

如果你以为“学会世界模型，强化学习就起飞了”，这场 OpenAI 内部分享会当头泼了一盆冷水。Alex Botev 用真实的机器人实验告诉你：模型不是越强越好，关键在于怎么用。更重要的是，他给出了一条现实可行的折中路线。

强化学习里，最诱人的“谎言”：有了模型，就不用再试错

在强化学习圈子里，模型（world model）一直像“圣杯”。如果你能学到一个完美的环境动力学模型，理论上你甚至可以不再和真实环境交互，直接在模型里规划、搜索、优化策略——任务想换就换，奖励函数想改就改。

Alex Botev 一上来就点破了这个诱惑：模型式强化学习之所以让人着迷，不是因为它更聪明，而是因为它看起来能绕开最昂贵的东西——真实交互数据。相比 model-free 方法只能靠 reward 一步步试，model-based 方法还能用监督学习训练动力学模型，稳定、好收敛、还能复用。

但问题在于，这个“完美模型”的前提，几乎从未成立。现实世界里的机器人、连续控制系统，任何一点小误差，在时间轴上都会被不断放大。你以为在做规划，实际上是在用一个越来越跑偏的世界做梦。

模型不是万能钥匙，而是一个会“复利放大错误”的工具

Botev 在分享中花了不少时间讲“为什么模型这么难”。最致命的问题只有四个字：误差叠加。

单步预测看起来不错，但一旦你把模型自己预测的结果再喂回模型，误差就开始指数级增长。视频里那个对比非常直观：
- 一种做法，每预测一步就“落地”到真实环境再继续；
- 另一种做法，让模型完全自嗨、连续 rollout。

结果是后者迅速发散，几步之后已经完全不像真实世界。

更糟的是：
- 并不是环境的所有状态维度都和任务有关；
- 神经网络模型的不确定性极难估计；
- 为了学一个“足够准”的模型，你往往需要和直接学策略差不多多的数据。

这直接戳破了一个行业迷思：model-based RL 并不天然更省样本。它只是把难度，从“学策略”换成了“学世界”。

真正聪明的做法：别替代 model-free，而是“偷偷增强”它

Botev 的核心贡献不在于再造一个世界模型，而在于一个极其工程化、却非常有效的想法：Value Expansion（价值展开）。

在标准 actor-critic 里，Q 值目标来自一步 bootstrapping，噪声大、方差高。而 Value Expansion 的思路是：

不指望模型跑完整条未来，只让它多跑几步，帮你构造更好的训练目标。

具体来说：
- 先用离线数据训练动力学模型；
- 再用模型 rollout 多步，构造多步 on-policy target；
- 不需要 importance sampling；
- 最终还是在 model-free 框架里更新 actor 和 critic。

这是一种极其务实的姿态：我不相信模型能替我做决策，但我相信它能让我算得更准一点。

机器人实验给出的残酷结论：能赢，但非常挑剔

在 Fetch Reach、Pick&Place、Push、Slide 等经典机器人任务中，结果相当耐人寻味：

使用 Value Expansion 的方法，在部分任务上样本效率最高提升 5 倍；
但模型极度依赖技巧和设置，单一动力学模型几乎从不奏效；
ensemble 是刚需，不是锦上添花；
多步 loss 训练动力学模型是必要条件；
价值展开超过 1–2 步，效果才真正显现；
在复杂环境中，对不同 horizon 的 target 取最小值（悲观估计），效果更稳，类似 Double Q 的思想。

还有一个反直觉的发现：确定性模型在长 horizon 上，反而比随机模型更好用。后者通常只能做单步预测，多步就失控。

最终答案：模型不会拯救你，但会让你更像专家

在渐近性能上，model-based + value expansion 并非全面胜出：
- 有的环境略好；
- 有的持平；
- 有的甚至略差。

Botev 给出的解决方式也非常“工程师”：插值。在真实的一步 target 和模型展开的多步 target 之间动态平衡，既吃模型红利，又避免被它拖下水。

这不是一个“革命性胜利”的故事，而是一份冷静、成熟的研究结论：世界模型很强，但前提是你承认它不完美。

总结

这场分享最重要的价值，并不是某个具体算法，而是一种思维方式：别幻想用模型取代现实，而要让模型在你最脆弱的地方补一刀。对从业者来说，如果你在做连续控制或机器人，Value Expansion、ensemble 动力学模型、悲观估计，都是可以立刻尝试的工具。更大的启发是——真正先进的 RL 系统，往往不是“model-free vs model-based”的胜负，而是两者边界被精心设计过的融合。

关键词：模型式强化学习，连续控制，世界模型， Value Expansion，机器人学习

事实核查备注：需要核查：演讲者姓名 Alexander Botev；演讲时间与场合（2018 OpenAI Summer Intern Open House）；实验环境为 Fetch 系列任务；样本效率提升“最高 5 倍”的具体对比基线；Value Expansion 是否为当时的正式论文名称

返回文章列表