• 强化学习----马尔科夫决策


            PS : 本书的符号标记基本严格遵守相关数学领域的惯例,对于变量,大写字母表示随机变量,小写字母表示普通变量;对于确定性函数而言均使用小写字母表示函数名及参数名;

    关于随机变量的运算通常也用大写字母表示如期望。

            强化学习马尔科夫链决策过程(MDP),这与马尔科夫链不同,也隐马尔科夫链不同,MDP模型增加了中间行为抽象,行为具有改变状态的能力,是状态的改变生成机理,

    描述了状态是通过什么行为而发生改变的,像增加了隐层一样,而且行为具有主动性,而马尔科夫链只是描述了一种状态之间的被动切换关系。

    符号说明:

    随机变量的取值是由的随机分布决定的。

    1. 
    以上集合即时随机过程的表示,其中〖 S〗_t 代表随机变量
    
    2. 
    花写  S 代表随机变量〖 S〗_t  的取值空间
    
    3. 
    〖 A〗_t 代表行为随机变量,其取值空间为花写的A,通常每个状态下可以取得行为空间可能并不相同,所以才表示为状态值的函数;为简化,将行为空间固定。
    
    4. 
    R_(t+1)  是行为〖 A〗_t    的奖赏,同时也是行为的后果,与此同时智能体的状态S_(t+1) 得到更新,本处行为与其对应的奖赏之间是有时间差的,主要是从时间角度强调,回报是在后期才会产生,与新的状态的时机更近,简而言之强调的时间线上的关联而不是强调行为的所属,也许这样更好地强调了过程性吧!
    
    5. 
    决策和智能体一起产生了一个序列(轨迹),是智能体策略和环境交互的一个实例,也是一个采样。
    
    6. 
    
    
    a.  有限MDP的 状态、行为、奖赏集合元素有限;这种情况下,随机变量〖 S〗_t   和〖 R〗_t 有良好定义的离散概率分布(依赖于先前状态和行为)。也就是说,在 t 时刻以及给定先前状态和行为的特定值的情况下,随机变量〖 S〗_t   和〖 R〗_t 的特定取值s′∈S  和〖 R〗_t∈R,有产生的概率。
    b. 等号上面的原点提醒我们这是关于函数 p 的定义而是以前定义的事实。函数 p: S×R×S×A --> [0,1]是四个参数的普通确定性函数。中间的“|”来自条件概率的符号,但是这里它仅仅提醒我们,为 S 和 a 的每个选择,  p 指定了一个概率分布,很自然的函数 p 满足以下性质(概率的基本定义):
    
    
    7. 
    上面公式(6),四参数函数p  给出的概率完全刻画了nite MDP的动力学性质,很容易得到(7)的计算方法。人们可以计算任何想知道关于环境的信息,如状态转移概率。注意符号有点略加滥用,三参数函数p:S×S×A --> [0,1],字母p只是表示这是一个关于概率的函数与其它的p没有其它关系,有点像方法重载。也很容易计算状态--行为对的期望奖赏,如一个二元函数  r : S × A → R
    
    或者 状态--行为--下一个状态三元组,如一个三元函数:
     r : S × A × S → R
    
    
    在本书中,我们通常使用四参数p函数(6),但是这些其他符号有时也很方便。
    
    PS : 本书的符号标记基本严格遵守相关数学领域的惯例,对于变量,大写字母表示随机变量,小写字母表示普通变量;对于确定性函数而言均使用小写字母表示函数名及参数名;关于随机变量的运算通常也用大写字母表示如期望。
    
    
       强化学习马尔科夫链决策过程(MDP),这与马尔科夫链不同,也隐马尔科夫链不同,MDP模型增加了中间行为抽象,行为具有改变状态的能力,是状态的改变生成机理,描述了状态是通过什么行为而发生改变的,像增加了隐层一样,而且行为具有主动性,而马尔科夫链只是描述了一种状态之间的被动切换关系。
    
        马尔科夫决策过程的优化又与动态规划密切相关,但与通常的动态规划不同,融入了概率和随机过程相关学科的内容,强化学习主要学习一个好的策略。
    

    给定的方案条件下,正向计算值函数,此时使用变量代换(小学数学基本思想)具体的数据,计算状态值函数以及行为值函数。变量代换的好处有二:a. 给定一个具体的策略,直接代入即可算得相应值函数; b. 方便后面有用函数理论去进行优化计算。

  • 相关阅读:
    关于在ubuntu12.04图形界面下不能从root用户直接登录的问题
    error: stray '357' in program
    关于gcc -o 的使用问题
    如何解决程序退出重启后不能绑定端口的问题?
    使用Ubuntu12.04登陆账户时,输入密码是正确的,但是图形界面闪一下后就又回到登陆页面了
    如何在linux系统中设置严密的密码策略(译文)
    sqlite3数据库归纳
    Bing地图切片原理
    CSS技巧
    jQuery.extend方法和开发中变量的复用
  • 原文地址:https://www.cnblogs.com/wdmx/p/10094344.html
Copyright © 2020-2023  润新知