• Atari游戏介绍(ALE中集成的RL游戏环境)


    参考链接:http://d0evi1.com/atari/

    Arxiv:https://arxiv.org/pdf/1709.06009.pdf

    ALE介绍:

      ALE在Stella(一个开源的Atari 2600模拟器)上构建。它允许用户通过接收joystick动作、发送screen/RAM信息、并模拟平台的方式来与Atari 2600交互。ALE提供了一个游戏处理层(game-handling layer),它通过标记累积得分、以及游戏是否已经结束,可以将每个游戏转化成一个标准的增强学习问题。缺省的,每个observation包含了单个游戏屏幕(game screen: frame):一个关于7bit像素的2D数组,160 pixels宽 x 210 pixels高。action space包含了18个离散(discrete)的actions,它们通过操纵杆控制器(joystick controller)来定义。game-handling layer也指定了需要玩一个特定游戏的关于actions的最小集合。当运行时,该仿真器会每秒生成60帧,最高速度的仿真可以达到每秒6000帧。在每个time-step上的reward通过game basis来定义,通常通过在帧之间的得分(score/points)的不同来指定。一个episode会在reset命令后的第一帧(frame)处开始,当游戏结束时终止。game-handling layer也提供了在预定义帧数后终止episode的能力。user因此可以通过单个公共接口来访问数十个游戏,并可以很简单地增加新游戏。

    Atari-py所包含的游戏:

    SAC-Discrete vs Rainbow:

    相关Atari游戏介绍:

    • Alien:控制小人走迷宫;小人接触到亮点则加分;小人被怪兽抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Amidar:控制小人走迷宫;走过之前未走过的路则加分;小人被怪兽抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Assault:控制飞机打敌人;击中敌人则加分;飞机被敌人打中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)

    • Asterix:控制智能体接触目标;遇到指定目标则加分;智能体遇到非指定目标则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Battle Zone:控制坦克打敌人;击中敌人则加分;坦克被敌人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(SAC)

    • Beam Rider:控制导弹发射器打敌人;击中敌人则加分;导弹发射器被敌人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)

    • Breakout控制板反射球;击中砖块后砖块消失且能够加分;板没接住球则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(Rainbow)

    • Crazy Climber控制小人爬梯子;向上爬则加分;小人脱离梯子则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段失去所有命则游戏结束;(Rainbow)

    • Enduro:控制小车沿道路行驶;超越别人加分,被别人超越扣分;小车撞到别人则会停滞;(SAC)

    • Freeway:控制小人过马路;小人成功过马路则加分;小人撞到车会被阻碍;游戏时间达到一定时长上方计分会闪烁,不久后游戏结束;(SAC)

    • Frostbite:控制小人过河;踩过板子则加分;小人掉下河则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(Rainbow)

    • JamesBond:控制智能体前进;击中敌人则加分;被敌人击中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段失去所有命则游戏结束;(SAC)

    • Kangaroo:控制袋鼠闯关;踩死敌人则加分;袋鼠被敌人抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • MsPacman:控制嘴巴走迷宫;嘴巴吃到红杠则加分;嘴巴被幽灵抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)

    • Pong:控制拍与对手打乒乓球;一方没接住球则另一方得分;一方到达21分则游戏结束;(Rainbow)

    • Qbert:控制小人踩格子;踩到没踩过的格子则加分;小人被敌人抓住则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)

    • Road Runner:控制小人跑步;向前跑则加分;小人被车撞上则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(Rainbow)

    • Seaquest:控制潜艇打敌人;打中敌人则加分;潜艇氧气耗尽则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为4,失去所有命则游戏结束;(SAC)

    • Space Invaders:控制智能体打敌人;打中敌人则加分;被敌人打中则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为3,失去所有命则游戏结束;(SAC)

    • Up N Down:控制小车沿道路行驶;小车前进则加分;撞到别人则失去一条命;在训练阶段通常设置失去一条命则游戏结束,在测试阶段初始命数为5,失去所有命则游戏结束;(Rainbow)

  • 相关阅读:
    angular js 自定义指令
    web api 解决跨域的问题
    angular 监听ngrepeat结束时间
    redis关闭和启动
    intellij idea快捷键
    mysql连接字符串
    crontab命令格式
    maven中scope属性的
    maven pom文件元素说明
    引入maven以外的jar包
  • 原文地址:https://www.cnblogs.com/lucifer1997/p/13971411.html
Copyright © 2020-2023  润新知