强化学习之MDP - 润新知

强化学习之MDP

前言

最近又入坑RL了，要搞AutoML就要学会RL，真的是心累。。

正文

MDP里面比较重要的就是状态值函数和动作-状态值函数吧，然后再求最优状态值函数和最优动作状态值函数，状态值函数的公式推导一开始不懂，卡在了一个地方，现在记下来，

很关键的一个在于“和的期望等于期望的和”

人生苦短，何不用python
相关阅读:
vscode安装插件时报错
 css-flex整理
 java学习之路--String类的基本方法
 java学习之路--面试之并发基础
 java学习之路--面试之多线程基础
 java学习之路--多线程实现的方法
 java学习之路--简单基础的面试题
 java学习之路
 jquery中remove()和empty()是区别
 创建html新元素的三种方法
原文地址：https://www.cnblogs.com/yqpy/p/11093604.html

Copyright © 2020-2023 润新知