第3章：有限马尔科夫决策过程

1.Agent-Environment接口

　　Agent是学习者和决策制定者，环境是由一切Agent之外的东西组成。下图是马尔科夫决策过程的agent和environment交互过程。

　　如果说一个状态包含关于过去agent-env交互的全部信息，并且这个交互会对未来造成一定的影响，那么称这个状态具有马尔科夫性质。

MDP的dynamics 概率等式p

2.目标和奖励

　　通常，我们agent的目标是使它接收到的累积奖励最大。这就意味着并不是去最大化眼前的奖励，还是最大化整个过程中的奖励。奖励也是区分强化学习的最显著地特点之一。

　　我们设置的奖励应该是使agent能够达到我们的目标，而不是能够学会以什么样的方式来达到我们的目标。比如说，我们在下象棋的时候，agent可能会想着去吃掉对方的棋子，哪怕付出的代价是输掉这场比赛。这就是如何正确设置奖励的重要性，它的设立应该是为实现我们的目标而服务的，而不是以什么样的方式去实现。

3.返回值和片段

　　在简单的场景下，返回值是所有奖励的总和。Gt= Rt+1 + Rt+2 + Rt+3 + Rt+4 +......+RT;

　　但是如果说在有些场景系，片段不是有有限的步骤，而是无限的。为了解决这种情况，就引入了折扣因数 γ，γ是个小于等于1的数。当γ小于1的时候，无限步数Gt就会有一个有限的值；当γ等于0的时候，就表示agent只关心眼前的奖励。但是，通常情况下，只关心眼前的奖励会减少获得未来奖励的可能性。当γ接近1的时候，agent把未来的奖励也考虑进去，这个时候就会很有远见。

4.策略和值函数

　　值函数（状态值函数或者是状态动作值函数）：评估agent在给定的状态下的好坏；或者是在给定的状态下，执行给定的动作的好坏。

　　策略：根据特定的动作来决定值函数，就是策略。一个策略就是一个从状态到各个动作可能性的映射。

　　其中最重要的是贝尔曼方程，这个是整个强化学习值函数的基本性质。

　　上面就是Vπ的贝尔曼方程，他表示的是当前状态值和下一个状态值之间关系。

Backup diagram for vπ

　　通过Backup diagram 可以很清楚理解贝尔曼方程的原理。空心圆代表的是状态，实心圆代表的是状态-动作对。

状态值函数vπ（s）状态-动作值函数qπ（s,a）

　　这两个图表明了状态值函数和状态-动作值函数之间的关系

5.总结

agent通过episode 中的每一步和环境进行交互，两者共同组合成一个任务task，agent 的action是以最大化整个阶段的reward总和为目的，其中state 和 reward 是归环境所有，和agent没有任何关系。

相关阅读:
IOS开发环境
IOS开发环境搭建
Eclipse简明使用教程(java集成开发环境）
分布式相关
成为架构师之路认识分布式架构
什么是分布式系统，如何学习分布式系统
分布式定义
VIM命令详解
vim常用命令
vi/vim 命令使用详解

原文地址：https://www.cnblogs.com/xsy123/p/13173955.html