Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。
如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表,只能对policy进行参数化。
然后它能处理连续action输出的问题。
DDPG似乎又不太一样,难道DDPG的任务都要求policy网络参数初始化很好,以便action不会陷入局部最优?所以要多训练几个policy网络?