• 增强学习----介绍


    PS:本文为阅读周志华《机器学习》笔记

    介绍-------任务与奖赏

    我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是“增强学习”。

    这是一个简单的图示,其中:

    机器处于环境中,状态空间为X,比如此例,状态空间可以是健康,缺水,凋亡等等,小x为状态空间X中单个状态。

    机器所能采取的动作为a,比如:浇水,不浇水;所有动作构成动作集合A。

    某个动作a作用在某个状态x上,则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如:缺水状态,选择浇水,则有概率转移到健康状态。

    那么,在转移到另一个状态时(另一个状态也可以是原本的状态),环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏,如:健康为+1,缺水为-1,凋亡为-100。

    综合起来,增强学习任务对应了一个四元组E=<X,A,P,R>,

    其中,P:X*A*X->R;指定了状态转移概率。R:X*A*X->指定了奖赏;

    思考:X与A之间的叉叉符号是什么关系?

    环境中状态的转移、奖赏的返回时不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。

    下图给出一个例子:仔细看在每个状态下,采取的动作a后状态转移的概率p和所获得的奖赏r;

    机器要做的就是通过在环境中不断地尝试而学得一个“策略”π,根据这个策略,在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态,就知道要选择浇水动作;

    策略有两种表示方法:一是将策略表示为函数π:X->A,确定性策略常用这种表示方法;

    另一种是概率表示π:X *A ->概率,随机性策略常用这种表示;

    思考:什么是确定性策略,什么是随机性策略?

    那么,π(x,a)为在一个状态x下选择某个动作a的概率,必须有;这里的意思是,在缺水状态下,选择浇水这个动作的概率之和为1.概率是指选择动作的概率;

    思考:p是表示状态转移概率,为何在状态x下选择某个动作的转移概率之和也为1?巧合还是有关联

    学习的目的就是找到使长期积累奖赏最大化的策略,长期积累有多种计算方式,常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值,E表示对所有的随机变量求期望;

    与监督学习的差别:

    “状态”对应监督学习中的“示例”,就是去掉标记特征的样本。
    “动作”对应为“标记”
    “策略”对应为“分类器”

    从这个意义上说,增强学习可以看作具有“延迟标记信息”的监督学习问题。

  • 相关阅读:
    [转]tf.summary() 用法
    PASCAL VOC工具包解读
    [ERROR] 安装完Detectron后出现 cython_nms.so: undefined symbol: PyFPE_jbuf
    用Tensorflow做蝴蝶检测
    双系统,重装ubuntu后无法进入windows
    [Error]NodeDef mentions attr 'identical_element_shapes' not in Op<name=TensorArrayV3;
    [转]调试 smallcorgi/Faster-RCNN_TF 的demo过程遇到的问题
    js交互轮播图
    js取俩个数之间的随机数
    原生js实现触摸滚动轮播图
  • 原文地址:https://www.cnblogs.com/blueyyc/p/5544761.html
Copyright © 2020-2023  润新知