这意味着OpenAI Five是第一个在电竞游戏中击败世界冠军的AI。
OpenAI Five和DeepMind的AlphaStar之前曾私下击败过优秀的职业选手,但却输掉了职业比赛。这次在直播中的表现可以说出乎了大多数人的意料。
在比赛后,OpenAI也发博文总结了这次比赛的经验以及在也公布了他们在训练OpenAI Five过程中的经验教训。一起来看!
在OpenAI Five 的总决赛中,还有两个惊喜:
1.尽管训练过程专注于击败其他机器人,但OpenAI Five具有了如何成为人类队友的初级能力。这很容易将竞争性AI转变为合作型AI,通过积极的开发工作,未来的AI系统会对人类非常有益。
2。最后的测试将让我们回答一个重要的研究问题:在多大程度上OpenAI Five可以被利用或以其他方式被确定地击败。这可能是有史以来最大规模的高强度深度强化学习智能体的部署,人们可以有意识地与之交互。
为什么是Dota?
启动OpenAI Five是为了解决现有深度强化学习算法无法实现的问题。希望通过解决当前方法无法解决的问题,这需要大幅增加我们工具的功能。我们需要复杂的算法思想,例如分层强化学习,但我们对所发现的东西感到惊讶:我们对这个问题所需的基本改进是规模。实现和利用这种规模并不容易,这正是我们研究工作的主要内容!
为了构建OpenAI Five,我们创建了一个名为Rapid的系统,让我们以前所未有的规模运行PPO。结果超出了我们最大的期望,我们生产了世界级的Dota机器人,没有受到任何基本的性能限制。
当今RL算法令人惊讶的强大功能是以大量经验为代价,这在游戏或模拟环境之外是不切实际的。这种限制可能没有声称的那么糟糕,例如,我们使用Rapid来控制机器手以灵巧地重新定位块,这完全是在模拟中训练并在物理机器人上执行。但我们认为减少经验量是RL的下一个挑战。
今天,OpenAI Five作为竞争者将要退休,但取得的进步和发展的技术将继续驱动我们未来的工作。这不是我们Dota工作的结束——我们认为Dota对于RL开发来说比现在使用的标准环境更具有内在的趣味和困难(现在这已经很好理解!)。
郑州妇科医院:https://myyk.familydoctor.com.cn/21521/郑州人流医院:https://myyk.familydoctor.com.cn/21521/
周六OpenAI Five的胜利与2018年国际赛的失败相比,是由于一次重大变化:训练计算量增加了8倍。在项目的许多前期阶段,我们通过提高训练规模来推动进一步的发展。但是在国际赛之后,我们已经将我们项目计算量的绝大部分用于训练单一的OpenAI Five模型。所以,我们以唯一可用的方式增加了计算规模:更长久的训练。