• ϵ-greedy Policies


    ϵ epsilon ϵ-greedy Policies

    非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上就是随机和贪心相结合。

    这个策略在论文里一般一句话就可以概括: ϵ epsilon ϵ-greedy policy that selects a random action with probability ϵ epsilon ϵ or otherwise follows the greedy policy a = a r g m a x a Q π ( s , a ) a = mathop{argmax}limits_{a}Q^pi(s,a) a=aargmaxQπ(s,a)

    • 简单的去平衡探索和利用的思想
    • ∣ A ∣ |A| A是所有可能的动作的数量
    • 那么针对state-action的价值 Q π ( s , a ) Q^pi(s,a) Qπ(s,a) ϵ epsilon ϵ-greedy策略是:
      π ( a ∣ s ) = { a r g m a x a Q π ( s , a ) w i t h   p r o b a b i l i t y   1 − ϵ a w i t h   p r o b a b i l i t y   ϵ ∣ A ∣ pi(a|s) = egin{cases} mathop{argmax}limits_{a}Q^pi(s,a) quad with probability 1-epsilon \ a qquad qquad qquad qquad with probability frac{epsilon}{|A|} end{cases} π(as)=aargmaxQπ(s,a)with probability 1ϵawith probability Aϵ
    这是一个非常简单的策略,但好的地方在它够用了。

    下面是它有效的证明。

    证明 ϵ epsilon ϵ-greedy策略能单调提升

    在这里插入图片描述

    Greedy in the Limit of Infinite Exploration(GLIE)

    GLIE的定义

    • 所有的state-action对都是无限次的被访问即
      l i m i → ∞ N i ( s , a ) → ∞ mathop{lim}limits_{i ightarrow infty}N_i(s,a) ightarrow infty ilimNi(s,a)

    • 那么行为策略会收敛到贪心策略
      l i m i → ∞ π ( a ∣ s ) → a r g m a x   Q ( s , a ) w i t h p r o b a b l i t y   1 mathop{lim}limits_{i ightarrow infty} pi(a|s) ightarrow mathop{argmax} Q(s,a) quad with probablity 1 ilimπ(as)argmax Q(s,a)withprobablity 1
      即百分之百收敛到贪心策略

    • 一个简单的GLIE策略是 ϵ epsilon ϵ-greedy,其中 ϵ epsilon ϵ ϵ i = 1 i epsilon_i = frac{1}{i} ϵi=i1的比率逐渐减小到0

  • 相关阅读:
    go 算法之插入排序算法 running
    Go多协程并发环境下的错误处理 running
    go 协程控制之sync.Once{} running
    php 生成指定范围内不重复的随机数 running
    php 正则函数preg_replace_callback running
    go 算法之冒泡算法 running
    googleStyle
    ubuntu搭建APT源简单方法
    request.getParameterMap()快速转化为bean
    多线程编程CountDownLatch和CyclicBarrier
  • 原文地址:https://www.cnblogs.com/wanghongze95/p/13842444.html
Copyright © 2020-2023  润新知