Asynchronous Methods for Deep Reinforcement Learning(A3C)

Asynchronous Methods for Deep Reinforcement Learning(A3C)

Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

DeepMind rl系列文章之一。

他们提出了一个简单的轻量级框架，使得deep rl能通过异步更新进行训练。在单个多核CPU上只用了一半的训练时间，取得了优于以前模型在GPU上的训练结果。另外，该框架也支持连续输出的控制任务。

1.动机

类似于DQN, Double DQN等模型，是一种off-policy的训练方式，需要存储运行过程。他们提出了一种异步框架，能够实现on-policy，能够运用到多种rl模型上，训练时间和硬件要求大大降低，还能提高模型性能。他们自己觉得这个工作做得非常的好。当然，大家也觉得很好。

2.方法

（1）好处：作者指出，训练时间的减少量和并行的数量大约成线性。也就是说，learner越多，时间就越少。

（2）作者在one-step Qlearning, one-step Sarsa, n-step Q-learning and advantage actor-critic四个模型上实现了异步算法。在优化算法上，作者用了RMSProp。

实用程度：5颗星

基础理论：1颗星

创新程度：3颗星
相关阅读:
常用基础命令
 Vim
Linux目录结构
 稀疏数组
 数据结构概述
 天天用的命令
 Mysql和redis的安装
 回文排列
 URL化
 在word中做复选框打对勾钩
原文地址：https://www.cnblogs.com/huangshiyu13/p/7340480.html