增强学习----介绍

增强学习----介绍

PS：本文为阅读周志华《机器学习》笔记

介绍-------任务与奖赏

我们如果要种西瓜，那要经过很多步骤后，才有可能种出一田好瓜，当然也有可能种出的瓜很差，或者直接给种死了。那么将种瓜的过程抽象出来，总结出一系列好的操作，归为种瓜策略，那么，这个过程，就是“增强学习”。

这是一个简单的图示，其中：

机器处于环境中，状态空间为X，比如此例，状态空间可以是健康，缺水，凋亡等等，小x为状态空间X中单个状态。

机器所能采取的动作为a，比如：浇水，不浇水；所有动作构成动作集合A。

某个动作a作用在某个状态x上，则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如：缺水状态，选择浇水，则有概率转移到健康状态。

那么，在转移到另一个状态时（另一个状态也可以是原本的状态），环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏，如：健康为+1，缺水为-1，凋亡为-100。

综合起来，增强学习任务对应了一个四元组E=<X,A,P,R>，

其中，P:X*A*X->R;指定了状态转移概率。R：X*A*X->指定了奖赏；

思考：X与A之间的叉叉符号是什么关系？

环境中状态的转移、奖赏的返回时不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

下图给出一个例子：仔细看在每个状态下，采取的动作a后状态转移的概率p和所获得的奖赏r；

机器要做的就是通过在环境中不断地尝试而学得一个“策略”π，根据这个策略，在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态，就知道要选择浇水动作；

策略有两种表示方法：一是将策略表示为函数π：X->A,确定性策略常用这种表示方法；

另一种是概率表示π：X *A ->概率，随机性策略常用这种表示；

思考：什么是确定性策略，什么是随机性策略？

那么，π(x,a)为在一个状态x下选择某个动作a的概率，必须有；这里的意思是，在缺水状态下，选择浇水这个动作的概率之和为1.概率是指选择动作的概率；

思考：p是表示状态转移概率，为何在状态x下选择某个动作的转移概率之和也为1？巧合还是有关联

学习的目的就是找到使长期积累奖赏最大化的策略，长期积累有多种计算方式，常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值，E表示对所有的随机变量求期望；

与监督学习的差别：

“状态”对应监督学习中的“示例”，就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”

从这个意义上说，增强学习可以看作具有“延迟标记信息”的监督学习问题。
相关阅读:
[转]tf.summary() 用法
 PASCAL VOC工具包解读
 [ERROR] 安装完Detectron后出现 cython_nms.so: undefined symbol: PyFPE_jbuf
用Tensorflow做蝴蝶检测
 双系统,重装ubuntu后无法进入windows
[Error]NodeDef mentions attr 'identical_element_shapes' not in Op<name=TensorArrayV3;
[转]调试 smallcorgi/Faster-RCNN_TF 的demo过程遇到的问题
 js交互轮播图
 js取俩个数之间的随机数
 原生js实现触摸滚动轮播图
原文地址：https://www.cnblogs.com/blueyyc/p/5544761.html