增量式离策略每次拜访蒙特卡洛评价算法

增量式离策略每次拜访蒙特卡洛评价算法

增量式离策略每次拜访蒙特卡洛评价算法

网络课程上看到的内容：

无限探索下的极限贪婪 (Greedy in the Limit with Infinite Exploration (GLIE))

算法1是同策略，算法2 是异策略

======================================================================

主要感觉到神奇的就是这个算法2 ，增量式离策略每次拜访蒙特卡洛评价方法

最看不太懂的，也是核心的步骤如下：

很是怀疑这个算法的正确性，由于没有找到原始出处就先如此了。

=========================
相关阅读:
POJ3687拓扑排序+贪心
 POJ3687拓扑排序+贪心
 POJ3614奶牛晒阳光DINIC或者贪心
 POJ3614奶牛晒阳光DINIC或者贪心
 POJ3070矩阵快速幂简单题
 POJ3070矩阵快速幂简单题
 POJ3040给奶牛发工资
 POJ3040给奶牛发工资
 #Leetcode# 78. Subsets
#Leetcode# 89. Gray Code
原文地址：https://www.cnblogs.com/devilmaycry812839668/p/11224207.html