• 博弈论2 零和游戏


    Zero Sum Games

    即原本讨论的收益矩阵有两个,分别对应于玩家1和玩家2。零和游戏保证了 \(A+B=O\),这说明只需要一个唯一的矩阵即可建模游戏收益,通常规定为玩家1的收益

    考虑一个混合策略outcome \((p,q)\),对于玩家1而言收益就是 \(p^\intercal Aq\),玩家2就是 \(-p^\intercal Aq\)。对于纯策略只需要让概率分布坍缩为一个点就行了。

    Min-Max

    以下只讨论玩家1,玩家2是类似的。

    对于任意的玩家2的混合策略 \(q\),玩家1必然会选择使得 \(p^\intercal Aq\) 最大化的 \(p\),即 \(p=\text{argmax } p^\intercal Aq\)

    而对于任意玩家1的混合策略 \(p\),玩家2必然会选择使得 \(p^\intercal Aq\) 最小化的 \(q\),这说明 \(p=\text{argmax}_p\min_qp^\intercal Aq\)

    定理1

    \[\min_q \max_p U(p,q)\geq \max_p \min_q U(p,q) \]

    证明比较玄妙,就是一堆绕来绕去的min-max

    首先对于 \(U(p,q)\) 将其视为关于 \(q\) 的函数,那么有函数在任意点处的函数值不小于其最小值

    \[U(p,q)\ge \min_q U(p,q) \]

    此时将 \(U(p,q)\)\(\min_q U(p,q)\) 视为 \(p\) 的函数,那么两侧加上关于 \(p\) 的最大值仍然成立

    \[\max_p U(p,q)\geq \max_p \min_q U(p,q) \]

    此时RHS是一个数,LHS是一个关于 \(q\) 的函数,这说明函数的最小值至少为RHS,即

    \[\min_q \max_p U(p,q)\geq \max_p \min_q U(p,q) \]

    定理2

    \(p^*,q^*\) 分别是min-max和max-min时,有如下定理:

    \((p^*,q^*)\) 是MNE当且仅当它们得到的收益相等。

    证明是某次作业

    定理3

    有限策略游戏的混合策略纳什均衡必然存在。

    这说明必然存在 \((p^*,q^*)\) 这样的均衡局面,且这样的局面分别是min-max和max-min

    定理4

    在对称零和游戏中,均衡点必然收益为 \(0\)

    这是显然的,对称零和说明 \(A^\intercal=B=-A\),即对角线上收益为 \(0\)。对于正收益的局面,玩家2总能移动到对角线上获得一个更高的收益;负收益局面玩家1同理。

    求解

    对于玩家1而言即为求解 \(\max_p \min_q p^\intercal Aq\),可以等价地转化为如下线性规划:

    \[\text{maximize }v \\ \text{s.t.} \\ p^\intercal A\geq v\bold1 \\ \text{where $p$ is a distribution over all strategies} \]

  • 相关阅读:
    Layui里的倒计时的使用
    idea springboot启动报SLF4J:Failed to load class “org.slf4j.impl.StaticLoggerBinder”
    软件生存周期及其模型是什么?
    试述软件的概念和特点?软件复用的含义?构件包括哪些?
    一台客户端有三百个客户与三百个客户端有三百个客户对服务器施压,有什么区别?
    在搜索引擎中输入汉字就可以解析到对应的域名,请问如何用LoadRunner进行测试。
    给你一个网站,你如何测试?
    使用SpringBoot Actuator 监控应用
    使用SpringBoot 集成 FastDFS
    使用SpringBoot 上传文件
  • 原文地址:https://www.cnblogs.com/jjppp/p/16361066.html
Copyright © 2020-2023  润新知