基于策略梯度的强化学习论文调研 - 润新知

基于策略梯度的强化学习论文调研
RL-Adventure: Policy Gradients

开源代码：https://github.com/higgsfield/RL-Adventure-2

自身实现：https://github.com/lucifer2859/Policy-Gradients

1、Advantage Actor Critic（A2C）& A3C　　

2、Soft Actor-Critic（SAC）(旧版)，(新版)
- off-policy
　　原始论文中伪代码有状态价值函数V：

　　后续为什么没有了 $V$ 函数？在初版的SAC中，作者表示同时维持两个值函数，可以使训练更加稳定，不过在第二版中，作者引入了自动调整温度系数 $alpha$ 的方法，使得SAC更加稳定，于是就只保留了 $Q$ 函数。

3、Deep Deterministic Policy Gradient（DDPG）
- off-policy
4、Proximal Policy Optimization Algorithms（PPO）
- on-policy
相关阅读:
html 标签分类
 第三课物理地址和几条汇编指令
 第二课寄存器
 第一课基础知识
 利用队列进行二叉树的层次遍历
 二叉树前序创建三种遍历代码亲测
 记录
 My97 DatePicker 全局显示、隐藏
 Available Memory Is Low
connect by prior...start with...
原文地址：https://www.cnblogs.com/lucifer1997/p/13836863.html

Copyright © 2020-2023 润新知