增量式离策略每次拜访蒙特卡洛评价算法
网络课程上看到的内容:
无限探索下的极限贪婪 (Greedy in the Limit with Infinite Exploration (GLIE))
算法1是同策略, 算法2 是异策略
======================================================================
主要感觉到神奇的就是这个算法2 , 增量式离策略每次拜访蒙特卡洛评价方法
最看不太懂的,也是核心的步骤如下:
很是怀疑这个算法的正确性,由于没有找到原始出处就先如此了。
=========================