OpenAI Five不是在打Dota，而是在重写团队智能的边界

AI PM 编辑部 · 2018年06月25日 · 1 阅读 · AI/人工智能

强化学习模型训练

正在加载视频...

视频章节

五个AI，没有语音、没有情绪，却在Dota里把人类打到GG。更反直觉的是，它们赢的不是操作，而是团队判断。OpenAI Five这次展示的，不是一场游戏胜利，而是一种可复制的群体智能训练范式。

OpenAI Five不是在打Dota，而是在重写团队智能的边界

五个AI，没有语音、没有情绪，却在Dota里把人类打到GG。更反直觉的是，它们赢的不是操作，而是团队判断。OpenAI Five这次展示的，不是一场游戏胜利，而是一种可复制的群体智能训练范式。

最反直觉的地方：AI赢在人类最自豪的“团队感”上

在多数人的想象里，AI打游戏靠的是极限反应、完美操作，最好再来点“超人类APM”。但OpenAI Five真正让职业解说震惊的，不是手速，而是团队决策。

在镜像阵容、完整5v5的Dota比赛中，AI做出了一个极其“老练”的选择：主动放弃难以控制的一侧地图，只牢牢吃下最关键的两条线。Blitz直言，这是“最高级别的地图控制策略之一”，而他花了八年才真正学会。

更夸张的是，这种判断不是偶发。换边、重来，AI做出了一模一样的选择。这意味着它不是记住套路，而是学会了什么才是真正决定胜负的变量。人类一直以为‘大局观’是经验的专利，这一刻被彻底打破。

不是一个天才AI，而是五个学会“不自私”的个体

OpenAI Five并不是一个中央大脑在指挥五个棋子，而是五个独立智能体的协作结果。问题在于：强化学习天生是“自私”的，只奖励个人收益。

为了解决这个问题，OpenAI引入了一个极不工程化、却极其关键的超参数：team spirit。它本质上是在调节一个问题——你到底有多在乎队友的成功。

训练初期，五个bot各打各的；随着team spirit被调高，它们开始为团队牺牲个人利益。这个细节很容易被忽略，但它解释了为什么AI的团战几乎不失误：没有犹豫、没有贪心、没有‘我觉得我能秀一下’。在高强度对抗中，这反而成了碾压人类的优势。

10万CPU自我对打：规模本身就是一种算法

OpenAI Five背后的方法并不花哨：强化学习 + 自我对战。但真正拉开差距的是规模。

训练过程中，系统在超过10万颗CPU上同时运行比赛，每一局都成为下一局的老师。Dota的复杂性远超1v1小游戏：信息不完全、长时间决策链、团队协作。这意味着，哪怕是‘学会不送人头’，都需要海量试错。

结果是，AI在极短时间内，走完了人类需要多年才能积累的对局分布。更重要的是，这些经验不是写成规则，而是压缩进了策略本身。这也是为什么解说会说：‘它在直觉上就知道该怎么打。’

这场比赛真正的主角，其实不是Dota

视频最后，OpenAI明确说了一句很容易被忽略的话：他们关注的是Dota，但兴奋的是方法的通用性。

当五个智能体能在极端复杂、动态、对抗性的环境中，学会协作、取舍和长期规划，这套训练范式显然不只适用于游戏。任何需要多角色协同的系统——从机器人集群到复杂调度问题——都开始有了现实参考。

Blitz的态度很有代表性：‘我不会害怕，我会兴奋。’因为这不只是AI在进步，而是在逼人类重新理解，什么才是真正的高手。

总结

OpenAI Five留下的最大启示，并不是“AI又赢了人类一次”，而是：团队智能是可以被训练出来的，而且不依赖显式规则。对AI从业者来说，这意味着三个行动点：第一，别低估奖励设计对群体行为的塑造力；第二，规模不是粗暴堆算力，而是探索复杂策略空间的必要条件；第三，真正通用的方法，往往先在‘没那么实用’的地方成熟。下一次你设计多智能体系统时，值得问自己一句：你的模型，真的学会为团队思考了吗？

关键词： OpenAI Five，强化学习，自我博弈，多智能体协作，团队智能

事实核查备注：需要核查的关键事实：1）视频发布时间：2018-06-25；2）训练规模描述为“over 100，000 CPUs”；3）使用的方法为强化学习+自我对战；4）Blitz（William Lee）在视频中的评价与原话语义；5）比赛为完整5v5镜像模式而非1v1。

返回文章列表