马尔科夫模型（Markov）（MDP）

马尔科夫模型主要元素有3个部分状态，动作，奖励。

对奖励的设置一定慎重，并且深谋远虑。如下图右侧：

绿色方块是生红色方块是死，游戏目的是使agent尽快到达绿色方块。

1：动作奖励正数过高，会使agent一直在方格世界里兜圈子，不想出去。因为这样每多走一步，都会获得正的奖励。

2：动作奖励负数过高，会使agent尽快想逃离这个世界，甚至直接走向红色方块，选择自杀。因为每一步损失都是巨大的，只能以最快的方式结束游戏。

奖励：代表着即时奖励和即时反馈

效用：代表长期奖励和长期反馈。

比如现在拿100块钱做投资，在一段时间过后得到了1000块。

这里的奖励是：负100块，效用是 1000块。

效用会影响当前的行动，效用非常高时，即使当前的奖励是负数的，依然继续下去。

　　　　　　　　　　　效用非常低时，即使当前看起来奖励很高，依然会停止行动。

真实效用：最优策略的效用，称为真实效用。

状态效用：在该状态获得的奖励+这个点上获得的所有奖励的折扣值

相关阅读:
根据模板自动生成数据
CSV to XLSX (专用)
释放用完的Excel COM组件
配置文件的力量
字符编解码的故事（ASCII，ANSI，Unicode，Utf-8区别）
将结果中的省略号内容全部输出
Powershell变量的类型
一些用过的C#类库收集
运算符
特殊运算符

原文地址：https://www.cnblogs.com/HL-blog/p/9067269.html