强化学习入门·

源地址 http://blog.csdn.net/supercally/article/details/54754787

2. 增强学习都有哪些策略

蒙特卡洛方法

简单而言，蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后，再做一个action，根据这个式子，直到episode结束，求出收益的和，就是向前走这个动作的一个采样。我们再不断地在这个状态采样，然后来求平均。等到采样变得非常非常多的时候，我们的统计值就接近期望值了。所以蒙特卡洛方法是一个非常暴力，非常直观的方法。

相关阅读:
[ios] 响应上下左右滑动手势
[ios]字符串转化成NSDate类型计算与当前时间的相差月数天数【转】
[ios] NSSet,NSMutableSet[zhuan]
[ios] 如何让xcode自动检查内存泄露【转】
iOS 使用Quartz 2D画虚线【转】
[ios]设置表格单元格交替背景【转】
[ios] IOS文件操作的两种方式：NSFileManager操作和流操作【转】
[ios] 自定义UIAlertView样式，实现可替换背景和按钮【转】
[ios]上传应用程序到app store 【转】
[ios] iOS中arc的设置与使用

原文地址：https://www.cnblogs.com/CATHY-MU/p/7722960.html