Arxiv:https://arxiv.org/pdf/1709.06009.pdf
ALE介绍:
ALE在Stella(一个开源的Atari 2600模拟器)上构建。它允许用户通过接收joystick动作、发送screen/RAM信息、并模拟平台的方式来与Atari 2600交互。ALE提供了一个游戏处理层(game-handling layer),它通过标记累积得分、以及游戏是否已经结束,可以将每个游戏转化成一个标准的增强学习问题。缺省的,每个observation包含了单个游戏屏幕(game screen: frame):一个关于7bit像素的2D数组,160 pixels宽 x 210 pixels高。action space包含了18个离散(discrete)的actions,它们通过操纵杆控制器(joystick controller)来定义。game-handling layer也指定了需要玩一个特定游戏的关于actions的最小集合。当运行时,该仿真器会每秒生成60帧,最高速度的仿真可以达到每秒6000帧。在每个time-step上的reward通过game basis来定义,通常通过在帧之间的得分(score/points)的不同来指定。一个episode会在reset命令后的第一帧(frame)处开始,当游戏结束时终止。game-handling layer也提供了在预定义帧数后终止episode的能力。user因此可以通过单个公共接口来访问数十个游戏,并可以很简单地增加新游戏。
Atari-py所包含的游戏:
SAC-Discrete vs Rainbow:
相关Atari游戏介绍:
- Alien:控制小人走迷宫;小人接触到亮点则加分;小人被怪兽抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)
- Amidar:控制小人走迷宫;走过之前未走过的路则加分;小人被怪兽抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)
- Assault:控制飞机打敌人;击中敌人则加分;飞机被敌人打中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)
- Asterix:控制智能体接触目标;遇到指定目标则加分;智能体遇到非指定目标则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)
- Battle Zone:控制坦克打敌人;击中敌人则加分;坦克被敌人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(SAC)
- Beam Rider:控制导弹发射器打敌人;击中敌人则加分;导弹发射器被敌人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)
- Breakout:控制板反射球;击中砖块后砖块消失且能够加分;板没接住球则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(Rainbow)
- Crazy Climber:控制小人爬梯子;向上爬则加分;小人脱离梯子则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段失去所有命则游戏结束;(Rainbow)
- Enduro:控制小车沿道路行驶;超越别人加分,被别人超越扣分;小车撞到别人则会停滞;(SAC)
- Freeway:控制小人过马路;小人成功过马路则加分;小人撞到车会被阻碍;游戏时间达到一定时长上方计分会闪烁,不久后游戏结束;(SAC)
- Frostbite:控制小人过河;踩过板子则加分;小人掉下河则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(Rainbow)
- JamesBond:控制智能体前进;击中敌人则加分;被敌人击中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段失去所有命则游戏结束;(SAC)
- Kangaroo:控制袋鼠闯关;踩死敌人则加分;袋鼠被敌人抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)
- MsPacman:控制嘴巴走迷宫;嘴巴吃到红杠则加分;嘴巴被幽灵抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)
- Pong:控制拍与对手打乒乓球;一方没接住球则另一方得分;一方到达21分则游戏结束;(Rainbow)
- Qbert:控制小人踩格子;踩到没踩过的格子则加分;小人被敌人抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)
- Road Runner:控制小人跑步;向前跑则加分;小人被车撞上则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)
- Seaquest:控制潜艇打敌人;打中敌人则加分;潜艇氧气耗尽则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)
- Space Invaders:控制智能体打敌人;打中敌人则加分;被敌人打中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)
- Up N Down:控制小车沿道路行驶;小车前进则加分;撞到别人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(Rainbow)