• 学习笔记2022.03.01


    学习笔记-2022.03.01

    内容:阅读论文分享:HyperDQN: A Randomized Exploration for Deep RL

    Introduction

    • 强化学习的一个难题是与环境交互时的样本效率

      • 好的探索策略可以减小样本复杂度。一个好的探索策略要不断尝试那些未知的/不确定的动作;但是对于已经比较确信的动作,应该采取最优的动作。
      • 差的探索策略则可能导致即使交互了很多次,也无法求解到最优策略。
    • 目前比较认可的高效探索策略

      • Upper Confidence Bound (UCB)

        置信区间上届算法,乐观的算法。。。

        UCB方法会设计“exploration bonus”来确保Q-value function是乐观的,这样便不会遗漏掉选择最优动作的可能。

        参考资料

      • Thompson Sampling (TS)

        汤普森采样

        Thompon Sampling的方法会通过后验分布来刻画不确定度:如果后验分布比较“宽”,则认为对环境的不确定比较大,如果后验分布比较“窄”,则认为对环境的不确定度比较小。除此之外,通过从后验分布中采样,Thompson Sampling的方法也可以实现像UCB那样的乐观估计。

        上图引自知乎

      • 大量研究表示Thompson Sampling的方法实际性能会比UCB更好一些。

    • 但想要把Thompson Sampling的方法应用在RL里并不那么容易

      一个主要的难题是如果更新后验分布。后验分布取决于先验分布和似然函数。如果我们考虑线性模型,那么后验分布更新还是可行的。这种情况下的算法就是著名的Randomized Least-square Value Iteration (RLSVI)。但是RLSVI和Deep RL并不兼容:

      • RLSVI里假设线性模型有一个比较好的特征(feature),从而可以表达最优的Q-value function。但这这个假设在实际任务中很难满足,因为我们实现不知道一个好的特征是什么,而需要神经网络来不断学习。
      • 当特征在不断变化的时候,RLSVI里的更新公式便不再适用,这意味着后验分布很难求解。
    • 论文主要工作是解决了以上问题。

    Methodology

    • 方法里有两个模型: base model和hypermodel:

      • base model就是一个基本的DQN模型(base model的参数是从hypermodel里采样得到的)。

      • hypermodel则是一个meta model来度量base model的parameter uncertainty

        在Thompson Sampling方法里,我们把对环境的不确定度转化为对模型参数的不确定度。

    • 为了把base model (feature extractor)和hypermodel (posterior distribution)学习出来,研究者设计了目标函数:

      \[\min_{v,\theta_{hidden}} \int_z {p(z)[\sum_{(s,a,r,\xi,s')∈D} (Q_{target} (s',z) + \delta_{\omega} z^{\top} \xi - Q_{prediction} (s,a,z)^2 + \frac{\delta_{\omega}^2}{\delta_{p}^2} ||f_v (z)||^2) ](dz)} \tag{1} \]

      其中,

      \[Q_{prediction} (s,a,z) = Q_{\theta_{prior, f_{v_{prior}}(z)}} (s,a) + Q_{\theta_{hidden, f_{v}(z)}}(s,a) \tag{2} \]

      \[Q_{target} (s',z) = r + \gamma \max_{a'} [Q_{\theta_{prior, f_{v_{prior}}(z)}}(s',a') + Q_{\overline{\theta}_{hidden, f_{v}(z)}}(s',a')] \tag{3} \]

      此处为一个高斯分布, \(z \top \xi\) 是一个认为引入的噪声

    Experiment

    实验结果参考原文,结果就是性能比DQN好,在大部分游戏中的表现好于baselines,计算代价比BootDQN小。

  • 相关阅读:
    DB2控制中心创建触发器
    将web应用迁到TongWeb
    DB2自增列数据处理
    Android 所有版本区别总结(转)
    C#强制关闭Excel进程(通过COM使用Excel时)
    Web开发中的ContentType类型大全
    Javascript中闭包(Closure)的探索(一)基本概念
    Javascript 中闭包(Closure)的探索(三)私有函数中的this
    VS2008中Web Reference和Service Reference的区别
    ASP.NET中模拟管理员用户提升权限
  • 原文地址:https://www.cnblogs.com/SilentSamsara/p/15952336.html
Copyright © 2020-2023  润新知