博弈论 - 润新知

博弈论

为啥a有4个策略而b有3个策略？

看到下面（树->矩阵）这个就了然了：

强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】

MiniMAx

假设所有人都在寻求最优，达到最大化奖励

来吧，再加点不确定性进来~~愉快的玩耍吧~~~：

Von Neumann冯·诺依曼提出的，哇塞，大牛就是腻害！！无处不在~~

ok，之前都是纯策略问题，下面再来看看综合策略问题~上图

Nash均衡： n repeated game => n repeated N.F.

零和博弈和非零和博弈

反复博弈、囚徒困境

MDP：RL：：
相关阅读:
提高PHP运行速度的几大方法
 如何判断Javascript对象是否存在
 CSS属性选择器中的通配符
 jQuery对象与dom对象的转换
 jquery的clone方法bug的修复
 IntelliJ IDEA 开发工具项目maven管理
 Socket连接与HTTP连接
 C#枚举数值与名称的转换
 JSSDK制作思路
 iOS强制横竖屏转换
原文地址：https://www.cnblogs.com/sxbjdl/p/5561319.html