• <强化学习>基本概念


    马尔可夫决策过程MDP,是强化学习的基础。

    MDP --- <S,A,P,R,γ>

    AGENT

    STATE

    ENV 

    REWARD   ,由ENV给出。agent处于状态s下,采取action之后离开状态获得一个reward。即f:S x A --->R

    所有强化学习问题解决的目标都可以描述成最大化累积奖励。All goals can be described by the maximisation of expected cumulative reward。即我们的目标是最大化G

    ACTION     ,离散分布,或者连续分布。

    POLICY     ,策略。 π :S x A --->[0,1] 

      |——Deterministic policy: a = π(s) 

      |——Stochastic policy: π(a|s) = P[At = a|St = s]                    //一个典型的随机策略 e-greedy policy derived from Q

    VALUE       ,a prediction of future reward;       形象地说AGENT.VALUE是agent对env的感觉,这样好,那样不好,对这个感到舒服,对那个感到upside

      |——state value V(s),表示State好坏的量。V(s)的值代表了State s的好坏。好坏是对于未来reward累积而言的。

      |    

      |——state-action value Q(s,a),

      |            

    下面是一个”迷宫游戏“的例子:

     

        

    以及算法中基本上用不到的概念Model,我们也给画出来:

    History & Observation & State三个概念辩解:

     [公式] 

      

    如下图中,红框为History,黑圈为Observation。

    至于State,要看f()是如何定义的,St = f(Ht),f()是我们人为定义的。

     

    AGENT分为以下三类:

    Model free和Model based辩解:

    我们进一步把RL算法分为Model free和Model based两类。

    Model based算法需要全知env,或者说已知Reward(s,a) for any (s,a)

    Model free算法不需要全知env。

  • 相关阅读:
    稳如车!半个世纪过去了,康威定律依然适用
    task.factory.startnew()
    RabbitMQ基础知识
    NLog类库使用探索——详解配置
    C# winform开发嵌套Chrome内核浏览器(WebKit.net)开发(一)
    C#客户端嵌入Chrome浏览器的实现
    TLS/HTTPS 证书生成与验证
    SSL证书/TLS证书是什么
    htmlparser
    动软代码生成器之模板功能介绍
  • 原文地址:https://www.cnblogs.com/dynmi/p/12263570.html
Copyright © 2020-2023  润新知