CNNs and Deep Q Learning

前面的一篇博文介绍了函数价值近似，是以简单的线性函数来做的，这篇博文介绍使用深度神经网络来做函数近似，也就是Deep RL。这篇博文前半部分介绍DNN、CNN，熟悉这些的读者可以跳过，直接看后半部分的Deep Q Learning Part。

Generalization

为什么要使用网络来做近似。

希望能使用强化学习来处理自动驾驶汽车，Atari，消费者市场，医疗，教育等等
这些领域一般都会有表格表示无法cover的高维输入特征(signals)或者说观察
多数上述领域有巨大的状态(state)和/或动作(action)空间
需要能在状态和/或动作之间泛化的Representation(模型的表示/状态-动作价值的表示/价值的表示/策略的表示)
那我们就用一个参数化的函数代替表格来表示一个(状态-动作/状态)价值函数

Recall: Stochastic Gradient Descent

上一篇博客概述：Linear Value Function Approximation for Prediction With An Oracle

在这里插入图片描述

RL with Function Approximator

线性价值函数器近似假定价值函数是一个一系列特征的加权组合，其中每一个特征是其状态的函数
线性VFA通常在给定正确的特征集的条件下表示很好
但是需要仔细地手动设计特征集
一个替代方案是使用更丰富的函数近似簇，他们能够从状态(States)中直接获取而不需要显式的规定所有的特征。
本地表示(local representation)，其中包括基于核的方法(kernel based approach)，有一些吸引人的性质(在某些情景下能得到收敛的结果等)，但不能很好的扩展到巨大的空间和数据集上。

Deep Neural Networks(DNN)

DNNs本质上是多个函数的组合。

在这里插入图片描述

Deep Neural Networks (DNN) Specification and Fitting

通常同时组合了线性和非线性变换
- 线性： $h_n = omega h_{n-1}$
- 非线性： $h_n = f(h_{n-1})$ 也被称作激活函数，比如：sigmoid、ReLU
为了拟合参数，需要一个loss函数(MSE，log likelihood等)

The benefit of Deep Neural Network Approximators

使用分布式表示而不是本地表示
通用型函数近似器
能仅需要指数级别少的节点/参数来表示同样一个函数
可以使用随机梯度下降来学习参数

Convolutional Neural Networks

Why Do We Care About CNNs

CNNs广泛应用于计算机视觉
如果你想根据像素点做决定，对视觉输入来说是非常有用的

Fully Connected Neural Net

在这里插入图片描述

Images Have Structure

图像有本地结构和关联
图像在空间和频率范围中有不同的特征

Convolutional NN

在这里插入图片描述

Locality of Information: Receptive Fields

在这里插入图片描述

(Filter) Stride

Shared Weights

在这里插入图片描述

Feature Map

第一个隐藏层的所有的神经元都检测确切相同的特征，只是在输入图像的不同位置做检测
特征：使得神经元产生一个特堵部分响应级别的某种输入模式(pattern)(e.g.,一个局部边)
为什么这说得通？
- 假定weights和bias(已经学习到的)是隐藏单元能选出一个感知域内的一条竖直边
- 这种能力在图像的其他位置也是有用的
- 对图像所有位置同样的特征检测器都是有用的
  产生变换(空间上的)不变形(尝试在图像的任何位置检测该特征)
- 受视觉系统启发而来

在这里插入图片描述

Convolutional Layer: Multiple Filters

Pooling Layers

在这里插入图片描述

Final Layer Typically Fully Connected

Deep Q Learning

Generalization

在这里插入图片描述

Deep Reinforcement Learning

使用深度神经网络来表示
- 价值函数
- 策略
- 模型
使用随机梯度下降(SGD)优化loss函数

Deep Q-Networks(DQNs)

使用带权重集 $w$ 的Q-network来表示状态-动作价值函数
$Q ^ ( s , a ; w ) ≈ Q ( s , a ) hat{Q}(s,a; extbf{w})approx Q(s,a)$

Recall: Action-Value Function Approximation with an Oracle

这是在做control

$hat{Q}^pi(s;a; extbf{w}) approx Q^pi$
最小化真实动作-价值函数 $Q^pi$ 和近似动作-价值函数的均方误差：
$extbf{w})=mathbb{E}_pi[(Q^pi(s,a)-hat{Q}(s,a; extbf{w}))^2]$
使用随机梯度下降来寻找一个局部最小值
$abla_{ extbf{w}}J( extbf{w}) = mathbb{E}_pi[(Q^pi(s,a)-hat{Q}^pi(s,a; extbf{w})) abla_{ extbf{w}}hat{Q}^pi(s,a; extbf{w})]$
$abla_{ extbf{w}}J( extbf{w})$
随机梯度下降(SGD)采样梯度

Recall: Incremental Model-Free Control Approaches

如同策略评估，一个状态的真实状态-动作价值函数是未知的所以使用一个目标值来替代
在蒙特·卡罗尔方法，使用一个回报 $G_t$ 作为一个替代目标
$Delta_{ extbf{w}}=alpha(G_t-hat{Q}(s_t,a_t; extbf{w})) abla_{ extbf{w}}hat{Q}(s_t,a_t; extbf{w})$
在SARSA，代替真实值的是TD目标 $r+gamma(s_{t+1},a_{t+1}; extbf{w})$ ，它利用了当前的函数近似价值
$Delta_{ extbf{w}}=alpha(r+gammahat{Q}(s_{t+1},a_{t+1}; extbf{w})-hat{Q}(s_t,a_t; extbf{w})) abla_{ extbf{w}}(s_t,a_t; extbf{w})$
在Q-learning，替代真实值的是TD目标 $max_ahat{Q}(s_{t+1},a; extbf{w})$ ，它利用了当前函数近似价值的最大值
$Delta_{ extbf{w}}=alpha(r+gamma max_ahat{Q}(s_{t+1},a; extbf{w})-hat{Q}(s_t,a_t; extbf{w})) abla_{ extbf{w}}hat{Q}(s_t,a_t;w)$

DQNs in Atari

在这里插入图片描述

DeepMind发表在nature上的文章，源代码可以在sites.google.com/a/deepmind.com/dqn找到

端到端从像素集s中学习 $Q (s, a)$ 价值
输入状态s是最后四帧的原始像素集的堆砌
输出是18个控制杆/按钮位置的 $Q (s, a)$ 值
回报是那一步的得分
网络结构和超参数在所有的游戏中都是固定的

他们的核心论点是不必在每一个游戏单独使用完全不同的网络架构来做完全不同的超参数调参来获得成功，这是一个通用的结构足够针对所有的游戏去学习好的决策。它的贡献在于我们尝试得到某种通用的算法和相关配置，能超越我们其他在强化学习论文上看到的只能在三个普通例子上运行。它在50中游戏上尝试做到很好。

Q-Learning with Value Function Approximation

使用随机梯度下降最小化MSE损失
使用表格查询表示收敛到最优 $Q^{*}(s,a)$
但是使用VFA的Q-learning会发散
两个担忧引发了这个问题
- 采样之间的相关性
- 非驻点的目标
Deep Q-learning(DQN)同时通过下列方式解决这两项挑战
- 经验重播(Experience replay)
- 固定Q-targets

DQNs: 经验重播

为了有助于移除相关性，从先前的经验中存储数据集(称作重播缓存) $D$
为进行经验重播，循环以下步骤：
- $(s, a, r, s^{'}) \sim D$ ：从数据集中采样一个tuple
- 计算采样s的目标价值： $max_{a'}hat{Q}(s',a'; extbf{w})$
- 使用随机梯度下降来更新网络权重
  $abla_ extbf{w} = alpha(r+gamma max_a' hat{Q}(s',a'; extbf{w})-hat{Q}(s,a; extbf{w}))Delta_{ extbf{w}}hat{Q}(s,a; extbf{w})$

不重用数据能降低内存消耗，但对弱化模型表现。经验重播相当于重用数据，而这是有帮助的。

可以把目标视作一个标量，但是权重将会在下一次更新，这改变了目标价值。

DQNs: fixed Q-Targets

为了提升稳定性，使用在多次更新中的目标计算固定目标权重
使用一个不同的权重来计算目标更不是更新目标
记参数集 $ext{w}^{-}$ 为在目标中使用的权重， $w$ 是被更新的权重
计算目标值时有细微的改变：
- $(s, a, r, s^{'}) \sim D$ ：从数据集中采样
- 从采样s中计算目标值 $max_{a'}hat{Q}(s',a'; extbf{w}^-)$
- 使用随机梯度下降来更新网络权重
  $Delta_{ extbf{w}} = alpha(r+gamma max_{a'}hat{Q}(s',a'; extbf{w}^-)-hat{Q}(s,a; extbf{w})) abla_{ extbf{w}}hat{Q}(s,a; extbf{w})$

这种Q-learing不是真正的梯度下降方法。GTD(gradient temporal difference) learning 是"更加"真实的梯度下降算法。这样做非常有帮助，但仍然不能保证收敛。

DQNs Summary

DQN 使用经验重播或固定Q-targets
在重播缓存 $D$ 中存储变迁 $s_t,a_t,r_{t+1},s_{t+1}$
从 $D$ 中采样随机的小批量变迁 $(s, a, r, s^{'})$
计算相对于旧的，固定的参数集 $extbf{w}^-$ 的Q-learnning目标
优化Q-network和Q-learning 目标之间的均方误差
使用随机梯度下降

基本上都是用 $ϵ$ -greedy exploration

DQN Result in Atari

这张图来自Deep Mind团队2015年的一篇论文，他们在50中游戏上实验了DQN算法，使用了CNN处理每一帧游戏画面。在超过半数的游戏里，都能实现接近人类甚至大幅领先人类的水平，但是需要大量的数据和时间来训练。

Which Aspects of DQN were Import for Success?

哪一部分对成功贡献最大？

Deep RL

在Atari游戏上的成功引起了使用深度神经网络来做价值函数近似的浓厚兴趣
这里列举了一些在之后马上的改进(还有很多其他的)
- Double DQN (Deep Reinforcement Learning with Double Q-Learning, Van Hasselt et al, AAAI 2016)
- Prioritized Replay (Prioritized Experience Replay, Schaul et al, ICLR 2016)
- Dueling DQN (best paper ICML 2016) (Dueling Network Architectures for Deep Reinforcement Learning, Wang et al, ICML 2016)
  人工智能的学术会议，大多可以免费下载论文(非IEEE)，不需要权限，所以上面的链接你可以直接点)

补充一点：
2018年Deep Mind在AAAI发表了组合6中DQN改进方法(包括上述)的Rainbow，Rainbow: Combining Improvements
in Deep Reinforcement Learning

Recall: Double Q-Learning

$1: Intialize Q_1(s,a)$ and $Q_2(s,a), forall s in S, a in A t=0,$ initial state $s_t=s_0$
$2 : l o o p$
$3 : S e l e c t$ $a_t$ using $ϵ$ -greedy $pi(s)=argmax_a Q_1(s_t,a)+Q_2(s_t,a)$
$(r_t,s_{t+1})$
$5 : i f$ (with 0.5 probability) then
$Q_1(s_a,a_t) leftarrow Q_1(s_t,a_t)+alpha$
$7 : e l s e$
$Q_2(s_t,a_t) leftarrow Q_2(s_t,a_t)+alpha$
$9 : e n d i f$
$10 : t = t + 1$
$11 : e n d l o o p$

这是在将我们如何选择action与评估那个action的价值分离开，以解决过估计的问题。

Double DQN

扩展Double Q-Learning的思想到DQN
当前Q-network的 $w$ 用于选择动作
旧的Q-network的 $extbf{w}^-$ 用于评估动作
$Delta_ extbf{w}=alpha(r+gamma hat{Q}(argmax_{a'}hat{Q}(s',a'; extbf{w}); extbf{w}^-)-hat{Q}(s,a; extbf{w}))$

Double DQN

在Atari游戏中，Double DQN通常会有很大帮助。

Refresher: Mars Rover Model-Free Policy Evaluation

在这里插入图片描述

先选择 $s_2,a_1,0,s_1)$ ，0+ $V(s_1)$ ，再选择 $s_3,a_1,0,s_2)$ ，这跟蒙特·卡罗尔方法一样，意味着没有误差。所以重播时选择元组的顺序是有影响的。

Impact of Replay

在表格法TD-learning中，重播更新的顺序能加速学习
重复某些更新能比其他更新看起来能够更好地反向传播信息
如何系统化的做prioritize updates?

Potential Impact of Ordering Episodic Replay Updates

在这里插入图片描述

Schaul, Quan, Antonoglou, Silver ICLR 2016
黑盒(Oracle): 选择 $(s, a, r, s^{'})$ 元组来重播将会降低全局loss
在收敛方面能有指数级别的提升
- 收敛需要的更新数量
黑盒不是一个实际的方法但是描述了顺序的影响

Prioritized Experiemce Replay

让我们来根据TD error赋予一些元组优先级

记 $i$ 是第 $i$ 个经验元组 $s_i,a_i,r_i,s_{i+1})$
采样元组以使用优先级函数来更新
一个元组的优先级和DQN error成比例
$p_{i} = | r+gamma max_{a'} Q(s_{i+1},a'; extbf{w}^-) - Q(s_i,a_i; extbf{w}) |$
(两边竖线绝对值的意思)
每一个元组都更新 $p_i$
其中一个方法 $^1$ : 成比例(随机优先化)
$P(i)=frac{p_i^alpha}{sum_k p_i^alpha}$
$α = 0$ 的话会产生了什么样的规则在现有的元组中做选择？

均匀采样
$α 的选取是一个平衡点$

$^1$ 请从上面的论文链接里查阅原论文以获得更详细的信息。

Performance of Prioritized Replay vs Double DQN

在这里插入图片描述

Value & Advantage Function

Advantage Fuction在采取一个动作和另一个动作的差别之间做度量。希望能理解哪一些动作会有更好的价值。

直观理解：用来确定价值的需要特比注意的特征，可能会和那些决定动作收益特征的不同
E.g.
- 游戏得分和预测 $V (s)$ 是相关的
- 但是在揭示相关动作价值时不是必须的
所以提出了优势函数(Advantage function, Baird 1993)
$A^pi(s,a)=Q^pi(s,a)-V^pi(s)$

Dueling DQN

在这里插入图片描述

Identifiability

优势函数(Advantage function)
$A^pi(s,a)=Q^pi(s,a)-V^pi(s)$
(优势是)可辨识的吗？
不可辨别

指定优势函数，做了一些预先设定的假设

Unidentifiable
观点1：如果a是选择的动作，强迫 $A (s, a) = 0$
$extbf{w})-max_{a' in mathcal{A}}hat{A}(s,a'; extbf{w}))$
观点2：使用平均值作为baseline(更稳定)
$extbf{w})-frac{1}{|mathcal{A}|}sum_{a'}hat{A}(s,a'; extbf{w})$

Dueling DQN V.S. Double DQN with Prioritized Replay

在这里插入图片描述

Practical Tips for DQN on Atati (From J. Schulman)

以下是来自伯克利博士John Schulman,OpanAI老大的在Atari上使用DQN的建议：
在这里插入图片描述

相关阅读:
noip2008提高组题解
noip2007提高组题解
noip2006提高组题解
一些题目（3）
一些题目（2）
洗牌问题
一些题目
同余模算术中的乘法逆元
省常中模拟 Test2 Day2
用矩阵乘法优化递推

原文地址：https://www.cnblogs.com/wanghongze95/p/13842440.html