*端策略优化算法(PPO)

策略梯度算法(PG)

策略梯度迭代，通过计算策略梯度的估计，并利用随机梯度上升算法进行迭代。其常用的梯度估计形式为：
$hat{mathbb{E}}_t[ abla_ heta log pi_ heta(a_t | s_t)hat{A}_t]$
其中 $pi_ heta$ 为随机策略， $hat{A}_t$ 是优势函数在时间步t的估计，其损失函数为：
$L^{PG}( heta)=hat{mathbb{E}}_t[log_{pi_ heta}(a_t|s_t)hat{A}_t]$

信赖域策略优化(TRPO)

TRPO要优化的目标函数如下：
$maximize_ heta hat{mathbb{E}}[frac{pi_{ heta(a_t|s_t)}}{pi_{ heta_{old}}(a_t|s_t)}hat{A}_t]$
$hat{mathbb{E}_t}[KL[pi_{ heta_{old}}(·|s_t)||pi_ heta(·|s_t)]] leq U$

*端策略优化算法(PPO)

截断替代目标(PPO1)

令 $r_t({ heta})=frac{pi_{ heta(a_t|s_t)}}{pi_{old}(a_t|s_t)}$ ，那么 $r_t( heta_{old})=1$ 。TRPO把目标函数替换为：
$L^{CPL}( heta) =hat{mathbb{E}}[frac{pi_{ heta(a_t|s_t)}}{pi_{ heta_{old}}(a_t|s_t)}hat{A}_t]=hat{mathbb{E}}_t[r_t( heta)hat{A}_t]$

$L^{CPL}$ 指的是前述TRPO中的保守策略迭代，如果不加约束，最大化 $L^{CPL}$ 会产生较大幅度的梯度更新。为了惩罚策略的变化(使得 $r_t( heta)$ 远离1，新旧策略的KL散度不能太大)，使用了以下的目标函数：
$L^{CLIP}( heta)=hat{mathbb{E}}[min(r_t( heta)hat{A}_t, clip(r_t({ heta}),1-epsilon, 1+epsilon)hat{A}_t)]$
原论文中取 $ϵ = 0.2$ ，直观示意图如下：
在这里插入图片描述
即：

当A>0时，如果 $r_t( heta)>1+epsilon$ ，则 $L^{CLIP}( heta)=(1+epsilon)hat{A}_t$ ；如果 $r_t( heta)<1+epsilon$ ，则 $L^{CLIP}( heta)=r_t( heta)hat{A}_t$ ；

当A<0时，如果 $r_t( heta)>1-epsilon$ ，则 $L^{CLIP}( heta)=r_t( heta)hat{A}_t$ ；如果 $r_t( heta)<1-epsilon$ ，则 $L^{CLIP}( heta)=(1-epsilon)hat{A}_t$ ；

自适应KL惩罚系数 (PPO2)

在TRPO中，使用"自适应惩罚系数" $β$ 来约束KL散度，在该算法的最简单实例中，在每一步策略更新中执行以下步骤：

使用多个minibatch SGD，优化KL惩罚的目标
$L^{KLPEN}( heta)=hat{mathbb{E}}_t[frac{pi_{ heta(a_t|s_t)}}{pi_{ heta_{old}}}(a_t|s_t)hat{A}_t-eta KL[pi_{ heta_{old}}(·|s_t), pi(·|s_t)]]$
计算 $d=hat{mathbb{E}}[KL[pi_{ heta_{old}}(·|s_t), pi(·|s_t)]]$

如果 $d<d_{targ}/1.5, eta <-eta/2$
如果 $d>d_{targ}*1.5, eta<-eta*2$

实验中，PPO2的效果可能没有PPO1的效果好。

更复杂的版本

$L_t^{CLIP+VF+S}( heta) = hat{E}_t[L_t^{CLIP}( heta)-c_1L_t^{VF}( heta)]+c_2 S[pi_{ heta}](s_t)]$
其中 $c 1$ ， $c 2$ 是系数， $S$ 表示熵奖励， $L_t^{VF}$ 是平方误差损失 $(V_ heta(s_t)-V_t^{targ})^2$

优势估计函数为
$hat{A}_t = -V(s_t)+r_t+gamma r_{t+1}+...+gamma^{T-t+1}r_{T-1}+gamma^{T-t}V(s^T)$

另外，我们可以使用广义优势函数来扩广 $hat{A}_t$ ，当 $λ = 1$ 时，它趋*于上面的等式
$hat{A}_t=delta+(gammalambda)delta_{t+1}+...+...+{gammalambda^{T-t+1}}delta_{T-1}$
$delta_t = r_t+gamma V(s_{t+1}-V(s_t))$

使用固定长度轨迹的*端策略优化(PPO)算法

如下所示：

$A l g o r i t h m P P O, A c t o r - C r i t i c S t y l e$
$f o r i t e r a t i o n = 1, 2, . . ., d o$
$f o r a c t o r = 1, 2, . . ., N, d o$
$pi_{ heta_{old}}$ in environment for T timesteps
$hat{A}_1,...,hat{A}_{T}$
$e n d f o r$
$O p t i m i z e s u r r o g a t e L w r t θ, w i t h K e p o c h s a n d m i n i b a t c h s i z e M < = N T$
$e n d f o r$

*端策略优化算法(PPO)

策略梯度算法(PG)

信赖域策略优化(TRPO)

*端策略优化算法(PPO)

截断替代目标(PPO1)

自适应KL惩罚系数 (PPO2)

更复杂的版本

使用固定长度轨迹的*端策略优化(PPO)算法

推荐阅读：