OpenAI Five不是在打Dota,而是在重写团队智能的边界

AI PM 编辑部 · 2018年06月25日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

五个AI,没有语音、没有情绪,却在Dota里把人类打到GG。更反直觉的是,它们赢的不是操作,而是团队判断。OpenAI Five这次展示的,不是一场游戏胜利,而是一种可复制的群体智能训练范式。

OpenAI Five不是在打Dota,而是在重写团队智能的边界

五个AI,没有语音、没有情绪,却在Dota里把人类打到GG。更反直觉的是,它们赢的不是操作,而是团队判断。OpenAI Five这次展示的,不是一场游戏胜利,而是一种可复制的群体智能训练范式。

最反直觉的地方:AI赢在人类最自豪的“团队感”上

在多数人的想象里,AI打游戏靠的是极限反应、完美操作,最好再来点“超人类APM”。但OpenAI Five真正让职业解说震惊的,不是手速,而是团队决策。

在镜像阵容、完整5v5的Dota比赛中,AI做出了一个极其“老练”的选择:主动放弃难以控制的一侧地图,只牢牢吃下最关键的两条线。Blitz直言,这是“最高级别的地图控制策略之一”,而他花了八年才真正学会。

更夸张的是,这种判断不是偶发。换边、重来,AI做出了一模一样的选择。这意味着它不是记住套路,而是学会了什么才是真正决定胜负的变量。人类一直以为‘大局观’是经验的专利,这一刻被彻底打破。

不是一个天才AI,而是五个学会“不自私”的个体

OpenAI Five并不是一个中央大脑在指挥五个棋子,而是五个独立智能体的协作结果。问题在于:强化学习天生是“自私”的,只奖励个人收益。

为了解决这个问题,OpenAI引入了一个极不工程化、却极其关键的超参数:team spirit。它本质上是在调节一个问题——你到底有多在乎队友的成功。

训练初期,五个bot各打各的;随着team spirit被调高,它们开始为团队牺牲个人利益。这个细节很容易被忽略,但它解释了为什么AI的团战几乎不失误:没有犹豫、没有贪心、没有‘我觉得我能秀一下’。在高强度对抗中,这反而成了碾压人类的优势。

10万CPU自我对打:规模本身就是一种算法

OpenAI Five背后的方法并不花哨:强化学习 + 自我对战。但真正拉开差距的是规模。

训练过程中,系统在超过10万颗CPU上同时运行比赛,每一局都成为下一局的老师。Dota的复杂性远超1v1小游戏:信息不完全、长时间决策链、团队协作。这意味着,哪怕是‘学会不送人头’,都需要海量试错。

结果是,AI在极短时间内,走完了人类需要多年才能积累的对局分布。更重要的是,这些经验不是写成规则,而是压缩进了策略本身。这也是为什么解说会说:‘它在直觉上就知道该怎么打。’

这场比赛真正的主角,其实不是Dota

视频最后,OpenAI明确说了一句很容易被忽略的话:他们关注的是Dota,但兴奋的是方法的通用性。

当五个智能体能在极端复杂、动态、对抗性的环境中,学会协作、取舍和长期规划,这套训练范式显然不只适用于游戏。任何需要多角色协同的系统——从机器人集群到复杂调度问题——都开始有了现实参考。

Blitz的态度很有代表性:‘我不会害怕,我会兴奋。’因为这不只是AI在进步,而是在逼人类重新理解,什么才是真正的高手。

总结

OpenAI Five留下的最大启示,并不是“AI又赢了人类一次”,而是:团队智能是可以被训练出来的,而且不依赖显式规则。对AI从业者来说,这意味着三个行动点:第一,别低估奖励设计对群体行为的塑造力;第二,规模不是粗暴堆算力,而是探索复杂策略空间的必要条件;第三,真正通用的方法,往往先在‘没那么实用’的地方成熟。下一次你设计多智能体系统时,值得问自己一句:你的模型,真的学会为团队思考了吗?


关键词: OpenAI Five, 强化学习, 自我博弈, 多智能体协作, 团队智能

事实核查备注: 需要核查的关键事实:1)视频发布时间:2018-06-25;2)训练规模描述为“over 100,000 CPUs”;3)使用的方法为强化学习+自我对战;4)Blitz(William Lee)在视频中的评价与原话语义;5)比赛为完整5v5镜像模式而非1v1。