• MDP:马尔科夫决策过程(二)


    MDP:马尔科夫决策过程(Markov Decision Process)

    策略评价:

    对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的;对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限的。

    需要定义一个客观函数(objective function)来将无穷的奖惩序列转换成单一的实数,来表示效用。

    大概有三种方式:

    1. 设立一个确定的界限,只计算这几步范围内的奖惩函数之和
    2. 对每一步的奖惩添加折扣,并且偏向于较为靠前的状态的所收到的奖惩(reword)
    3. 平均奖惩率(Average reward rate in the limit)

    其中,第二种,折扣法是比较常用的,主要介绍这一种。折扣法:

    第 n 步的奖惩(reword)被乘以γn的折扣,这里的γ大于等于0,小于1。也就意味着该方法更偏向于较近的步数收到的奖惩

    然后对这 n 步的带折扣奖惩进行累加

    为了衡量一个策略的好坏,我们使用值函数 Vπ (Value Function),定义如下:

    在每一个状态按照策略 π 执行所获得的客观函数的值(Objective function)

    R(s,π(s))表示当前状态 s 下,按照策略 π 执行动作 π(s) 所获得奖惩

    上面的式子也可写做递归的形式:

    这样就可按照值函数对每个策略进行排列,就会存在至少一个最优策略,V*

    (下一篇将接着介绍贝尔曼等式(Bellman equations))

  • 相关阅读:
    1503: [NOI2004]郁闷的出纳员
    2049: [Sdoi2008]Cave 洞穴勘测
    2301: [HAOI2011]Problem b
    BZOJ 1923: [Sdoi2010]外星千足虫
    BZOJ 2115: [Wc2011] Xor
    POJ 1830 开关问题
    欧拉函数基础
    BZOJ 2186 沙拉公主的困惑
    POJ 1845
    逆元基础知识整理
  • 原文地址:https://www.cnblogs.com/coolalan/p/4353034.html
Copyright © 2020-2023  润新知