【人工智能导论：模型与算法】马尔科夫决策过程MDP | 强化学习问题定义：策略函数π，状态价值函数v(s)，动作价值函数q(s,a) V2.0 - 润新知

【人工智能导论：模型与算法】马尔科夫决策过程MDP | 强化学习问题定义：策略函数π，状态价值函数v(s)，动作价值函数q(s,a) V2.0
【人工智能导论：模型与算法】马尔科夫决策过程

【人工智能导论：模型与算法】强化学习问题定义贝尔曼方程

太晚了，贝尔曼来不及看了。贝尔曼有一定难度，拿出时间单独看也好。

第二遍看MDP，理解又深入了一些。

【2022.1.22更新】

价值函数 更新为：状态价值函数。
- 更多教材采用状态价值函数
- 另一个叫动作价值函数，感觉也比较对称。
相关阅读:
Selenium三种等待的使用方式
 mysql中出现没有权限访问或者查看全部数据库的问题---用客户端第一次打开的时候
 报错:1130-host ... is not allowed to connect to this MySql server 开放mysql远程连接不使用localhost
PAC全自动脚本代理
 dns是什么
 cdn是什么
 vim替换命令
 linux文件权限赋值
 访问nginx-php页面的时候报access denied.
配置php时。提示的错误session_start(): Failed to initialize storage module解决办法
原文地址：https://www.cnblogs.com/hbuwyg/p/15832279.html

Copyright © 2020-2023 润新知