• 【转载】 深度强化学习处理cartpole为什么reward很难超过200?


    原贴地址:

    https://www.zhihu.com/question/266493753

    一直在看强化学习方面的内容,cartpole是最简单的入门实验环境,最原始的评判标准是连续100次episode的奖励均值在195以上即可认定是到达最优,说明此问题得以解决,(但是有很多的研究是没有采用这个条件的,也就是按照训练的次数固定,在一定的训练次数后看测试时的奖励均值和方差)。如果我们不按照这个评价标准来运行该环境的话,那么我们需要对gym中的某些原始设定进行修改。

    ----------------------------------------------------------------------------------------

     

    在文件gym/envs/__init__.py 中,限定了max_episode_steps

    register(

    id='CartPole-v0',

    entry_point='gym.envs.classic_control:CartPoleEnv',

    max_episode_steps=200,

    reward_threshold=195.0,

    )

     
     
     
     
     
     
     


    作者:冰璐
    链接:https://www.zhihu.com/question/266493753/answer/317795225
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     
     
     
    ------------------------------------------------------------------------------------------------
     
     
     
     
     
     
     
     
     
     
     
  • 相关阅读:
    IDEA学习和收藏夹
    mysql资料收集及学习
    一些模板代码
    docker学习
    Spring事务传播类型
    rust学习疑惑
    [重新做人]从头学习JAVA SE——java.lang.reflect
    java核心技术卷一
    Spring实战 难懂的JavaBean
    Spring实战系列
  • 原文地址:https://www.cnblogs.com/devilmaycry812839668/p/10582421.html
Copyright © 2020-2023  润新知