强化学习笔记（一） Qlearning & Sarsa

我的理解:

Q learning

Sarsa

在一个回合内：

初始化s

1. choose(s, Q) => action ( $epsilon-greedy$ 策略)

2. move(action, s, Q) => s_ , R

3. Q_fresh(action, s, Q, s_, R) => new_Q （最大值策略）

4. 更新 s = s_

5. 重复步骤1-5

在一个回合内：

初始化s , 并选择一个动作action choose(s, Q) => action ( $epsilon-greedy$ 策略)

1. move(action, s, Q) => s_, R

2. choose(s_, Q) => action_ ( $epsilon-greedy$ 策略)

3. Q_fresh(action, s, Q, action_, s_, R) => new_Q

4. 更新 s=s_, action=action_

5. 重复步骤1-5

帮助理解：

相关阅读:
CSS常用伪类
 HTML5常用API
HTML5新技术FormData提交表单数据
 WebPack打包后如何调试
 layui的初体验(layer的使用)
java数组
 java:注解
 java反射:框架设计的灵魂
 885历年编程题
 2020年专业课编程题
原文地址：https://www.cnblogs.com/btschang/p/11131014.html

Copyright © 2020-2023 润新知