ϵ-greedy Policies - 润新知

ϵ-greedy Policies
$ϵ$ -greedy Policies

非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上就是随机和贪心相结合。

这个策略在论文里一般一句话就可以概括: $ϵ$ -greedy policy that selects a random action with probability $ϵ$ or otherwise follows the greedy policy $mathop{argmax}limits_{a}Q^pi(s,a)$
- 简单的去平衡探索和利用的思想
- 记 $∣ A ∣$ 是所有可能的动作的数量
- 那么针对state-action的价值 $Q^pi(s,a)$ 的 $ϵ$ -greedy策略是:
  $mathop{argmax}limits_{a}Q^pi(s,a) quad with probability 1-epsilon \ a qquad qquad qquad qquad with probability frac{epsilon}{|A|} end{cases}$
这是一个非常简单的策略，但好的地方在它够用了。
下面是它有效的证明。

证明 $ϵ$ -greedy策略能单调提升

Greedy in the Limit of Infinite Exploration(GLIE)

GLIE的定义
- 所有的state-action对都是无限次的被访问即
  $mathop{lim}limits_{i ightarrow infty}N_i(s,a) ightarrow infty$
- 那么行为策略会收敛到贪心策略
  $mathop{lim}limits_{i ightarrow infty} pi(a|s) ightarrow mathop{argmax} Q(s,a) quad with probablity 1$
  即百分之百收敛到贪心策略
- 一个简单的GLIE策略是 $ϵ$ -greedy，其中 $ϵ$ 以 $epsilon_i = frac{1}{i}$ 的比率逐渐减小到0
相关阅读:
go 算法之插入排序算法 running
Go多协程并发环境下的错误处理 running
go 协程控制之sync.Once{} running
php 生成指定范围内不重复的随机数 running
php 正则函数preg_replace_callback running
go 算法之冒泡算法 running
googleStyle
ubuntu搭建APT源简单方法
 request.getParameterMap()快速转化为bean
多线程编程CountDownLatch和CyclicBarrier
原文地址：https://www.cnblogs.com/wanghongze95/p/13842444.html

Copyright © 2020-2023 润新知