强化学习读书笔记 - 10 - on-policy控制的近似方法
学习笔记:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
参照
- Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
- 强化学习读书笔记 - 00 - 术语和数学符号
- 强化学习读书笔记 - 01 - 强化学习的问题
- 强化学习读书笔记 - 02 - 多臂老O虎O机问题
- 强化学习读书笔记 - 03 - 有限马尔科夫决策过程
- 强化学习读书笔记 - 04 - 动态规划
- 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
- 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
- 强化学习读书笔记 - 08 - 规划式方法和学习式方法
- 强化学习读书笔记 - 09 - on-policy预测的近似方法
需要了解强化学习的数学符号,先看看这里:
on-policy控制的近似方法
近似控制方法(Control Methods)是求策略的行动状态价值(q_{pi}(s, a))的近似值(hat{q}(s, a, heta))。
半梯度递减的控制Sarsa方法 (Episodic Semi-gradient Sarsa for Control)
Input: a differentiable function (hat{q} : mathcal{S} imes mathcal{A} imes mathbb{R}^n o mathbb{R})
Initialize value-function weights ( heta in mathbb{R}^n) arbitrarily (e.g., ( heta = 0))
Repeat (for each episode):
(S, A gets) initial state and action of episode (e.g., "(epsilon)-greedy)
Repeat (for each step of episode):
Take action (A), observe (R, S')
If (S') is terminal:
( heta gets heta + alpha [R - hat{q}(S, A, heta)] abla hat{q}(S, A, heta))
Go to next episode
Choose (A') as a function of (hat{q}(S', dot , heta)) (e.g., (epsilon)-greedy)
( heta gets heta + alpha [R + gamma hat{q}(S', A', heta) - hat{q}(S, A, heta)] abla hat{q}(S, A, heta))
(S gets S')
(A gets A')
多步半梯度递减的控制Sarsa方法 (n-step Semi-gradient Sarsa for Control)
请看原书,不做拗述。
(连续性任务的)平均奖赏
由于打折率((gamma), the discounting rate)在近似计算中存在一些问题(说是下一章说明问题是什么)。
因此,在连续性任务中引进了平均奖赏(Average Reward)(eta(pi)):
- 目标回报(= 原奖赏 - 平均奖赏)
- 策略价值
- 策略最优价值
- 时序差分误差
- 半梯度递减Sarsa的平均奖赏版
半梯度递减Sarsa的平均奖赏版(for continuing tasks)
Input: a differentiable function (hat{q} : mathcal{S} imes mathcal{A} imes mathbb{R}^n o mathbb{R})
Parameters: step sizes (alpha, eta > 0)Initialize value-function weights ( heta in mathbb{R}^n) arbitrarily (e.g., ( heta = 0))
Initialize average reward estimate (ar{R}) arbitrarily (e.g., (ar{R} = 0))
Initialize state (S), and action (A)Repeat (for each step):
Take action (A), observe (R, S')
Choose (A') as a function of (hat{q}(S', dot , heta)) (e.g., (epsilon)-greedy)
(delta gets R - ar{R} + hat{q}(S', A', heta) - hat{q}(S, A, heta))
(ar{R} gets ar{R} + eta delta)
( heta gets heta + alpha delta abla hat{q}(S, A, heta))
(S gets S')
(A gets A')
多步半梯度递减的控制Sarsa方法 - 平均奖赏版(for continuing tasks)
请看原书,不做拗述。