• Gae&reward shaping


    1| reward. shaping

    如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛

    2、gae:广义优势估计

    absorb state:terminal state

    γ-just条件:尚未理解

    GAE(Generalized Advantage Estimation)

    1. GAE的作用

      • GAE的意思是泛化优势估计,因而他是用来优化Advantage Function优势函数的。
      • GAE的存在是用来权衡variance和bias问题的:
        • On-policy直接交互并用每一时刻的回报作为长期回报的估计Tt=tγttrtt=tTγttrt 会产生较大的方差,Variance较大。
        • 而通过基于优势函数的AC方法来进行回报值估计,则会产生方差较小,而Bias较大的问题。
    2. GAE 推导

      满足γγ-just条件。(未完待续)

    3. GAE形式

      GAE的形式为多个价值估计的加权平均数。

    ​ 为了快速估计序列中所有时刻的估计值,采用倒序计算,从t+1时刻估计t时刻:

  • 相关阅读:
    HTML_表单
    HTML_列表、表格与媒体元素
    HTML_HTML5基础
    使用java理解程序逻辑 试题分析
    字符串
    带参数的方法
    人机猜拳
    类的无参方法
    类和对象
    vue cli+axios踩坑记录+拦截器使用,代理跨域proxy(更新)
  • 原文地址:https://www.cnblogs.com/lin-kid/p/11199380.html
Copyright © 2020-2023  润新知