我的理解:
Q learning |
Sarsa |
在一个回合内: 初始化s 1. choose(s, Q) => action (策略) 2. move(action, s, Q) => s_ , R 3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略) 4. 更新 s = s_ 5. 重复步骤1-5 |
在一个回合内: 初始化s , 并选择一个动作action choose(s, Q) => action (策略) 1. move(action, s, Q) => s_, R 2. choose(s_, Q) => action_ (策略) 3. Q_fresh(action, s, Q, action_, s_, R) => new_Q 4. 更新 s=s_, action=action_ 5. 重复步骤1-5 |
帮助理解: