【人工智能导论:模型与算法】马尔科夫决策过程
【人工智能导论:模型与算法】强化学习问题定义 贝尔曼方程
太晚了,贝尔曼来不及看了。贝尔曼有一定难度,拿出时间单独看也好。
第二遍看MDP,理解又深入了一些。
【2022.1.22更新】
价值函数 更新为:状态价值函数。
- 更多教材采用 状态价值函数
- 另一个叫 动作价值函数,感觉也比较对称。
太晚了,贝尔曼来不及看了。贝尔曼有一定难度,拿出时间单独看也好。
第二遍看MDP,理解又深入了一些。
【2022.1.22更新】
价值函数 更新为:状态价值函数。