• ϵ-greedy Policies


    ϵ epsilon ϵ-greedy Policies

    非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上就是随机和贪心相结合。

    这个策略在论文里一般一句话就可以概括: ϵ epsilon ϵ-greedy policy that selects a random action with probability ϵ epsilon ϵ or otherwise follows the greedy policy a = a r g m a x a Q π ( s , a ) a = mathop{argmax}limits_{a}Q^pi(s,a) a=aargmaxQπ(s,a)

    • 简单的去平衡探索和利用的思想
    • ∣ A ∣ |A| A是所有可能的动作的数量
    • 那么针对state-action的价值 Q π ( s , a ) Q^pi(s,a) Qπ(s,a) ϵ epsilon ϵ-greedy策略是:
      π ( a ∣ s ) = { a r g m a x a Q π ( s , a ) w i t h   p r o b a b i l i t y   1 − ϵ a w i t h   p r o b a b i l i t y   ϵ ∣ A ∣ pi(a|s) = egin{cases} mathop{argmax}limits_{a}Q^pi(s,a) quad with probability 1-epsilon \ a qquad qquad qquad qquad with probability frac{epsilon}{|A|} end{cases} π(as)=aargmaxQπ(s,a)with probability 1ϵawith probability Aϵ
    这是一个非常简单的策略,但好的地方在它够用了。

    下面是它有效的证明。

    证明 ϵ epsilon ϵ-greedy策略能单调提升

    在这里插入图片描述

    Greedy in the Limit of Infinite Exploration(GLIE)

    GLIE的定义

    • 所有的state-action对都是无限次的被访问即
      l i m i → ∞ N i ( s , a ) → ∞ mathop{lim}limits_{i ightarrow infty}N_i(s,a) ightarrow infty ilimNi(s,a)

    • 那么行为策略会收敛到贪心策略
      l i m i → ∞ π ( a ∣ s ) → a r g m a x   Q ( s , a ) w i t h p r o b a b l i t y   1 mathop{lim}limits_{i ightarrow infty} pi(a|s) ightarrow mathop{argmax} Q(s,a) quad with probablity 1 ilimπ(as)argmax Q(s,a)withprobablity 1
      即百分之百收敛到贪心策略

    • 一个简单的GLIE策略是 ϵ epsilon ϵ-greedy,其中 ϵ epsilon ϵ ϵ i = 1 i epsilon_i = frac{1}{i} ϵi=i1的比率逐渐减小到0

  • 相关阅读:
    Python 安装Twisted 提示python version 2.7 required,which was not found in the registry
    Openfire Strophe开发中文乱码问题
    css div 垂直居中
    How to create custom methods for use in spring security expression language annotations
    How to check “hasRole” in Java Code with Spring Security?
    Android 显示/隐藏 应用图标
    Android 当媒体变更后,通知其他应用重新扫描
    文件上传那些事儿
    专题:点滴Javascript
    主流动画实现方式总结
  • 原文地址:https://www.cnblogs.com/wanghongze95/p/13842444.html
Copyright © 2020-2023  润新知