读书笔记: 博弈论导论

读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈重复的博弈

重复的博弈(Repeated Games)

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。

有限地重复的博弈

有限地重复的博弈(Finitely Repeated Games)
给定一个阶段博弈(G)，一个有限地重复的博弈被记做(G(T, delta))，其中阶段博弈(G)被连续进行了T次，(delta)是公共折扣因子。

推论 10.1

如果有限重复博弈的阶段博弈有一个唯一的纳什博弈，
则这个有限重复博弈有一个唯一的子博弈精炼均衡。

现值(present value)
在一个无限队列的收益$ { v_i }_{i=1}^{infty}$中，玩家i的现值是

[v_i = sum_{t=1}^{infty} delta^{t-1} v_i^t \ where \ 0 < delta < 1 ]

平均收益(average payoff)
在一个无限队列的收益$ { v_i }_{i=1}^{infty}$中，玩家i的现值是

[ar{v_i} = (1 - delta) sum_{t=1}^{infty} delta^{t-1} v_i^t \ where \ delta < 1 ]

策略
在一个无限重复博弈中，(H_t)代表长度为t的所有可能历史的集合。
(h_t in H_t)是一种历史。
(H = cup_{t=1}^{infty} H_t)为所有可能历史的集合。
玩家i的一个纯策略是一个映射(s_i: H o S_i)，映射历史到这个阶段博弈的行动。
玩家i的一个行为策略一个映射(sigma_i: H o Delta S_i)，映射历史到这个阶段博弈的行动的随机选择。
子博弈精炼均衡(Sub-game-perfect equilibria)
一个纯博弈组合((s_1^*(cdot), s_2^*(cdot), cdots, s_n^*(cdot)), s_i: H o S_i, forall i in N)是一个子博弈精炼均衡，
如果在每一个子博弈中，((s_1^*(cdot), s_2^*(cdot), cdots, s_n^*(cdot)))的约束都是一个纳什均衡。

推论 10.2

一个无限重复博弈(G(delta), delta < 1)，其阶段博弈G的一个（静态）纳什均衡((sigma_1^*, sigma_2^*, cdots, sigma_n^*))。
定义这个重复博弈的每个玩家i的策略为不依赖历史的纳什策略，(sigma_i^*(h) = sigma_i^*, forall h in H)，
则((sigma_1^*(h), sigma_2^*(h), cdots, sigma_n^*(h)))为这个重复博弈的一个子博弈精炼均衡。

不依赖历史的无限重复博弈中阶段博弈，其纳什均衡就是重复博弈的子博弈精炼均衡。

推论 10.3

在一个无限重复博弈(G(delta))中，一个策略组合是一个子博弈精炼均衡，
当且仅当不存在玩家i在其单个历史(h_{t-1})中，可以从(s_i(h_{t-1}))偏离中获得更多的收益。

凸组合(convex combination)
给定两个矢量(v = (v_1, v_2, cdots, v_n))和(v’ = (v‘_1, v’_2, cdots, v‘_n))，
(hat{v} = (hat{v}_1, hat{v}_2, cdots, hat{v}_n))是一个凸组合(convex combination)，
如果(hat{v} = alpha v + (1 - alpha) hat{v}, alpha in [0, 1])或者说(hat{v}_i = alpha v_i + (1 - alpha) hat{v}_i, forall i in [1, cdots, n])
从几何上说凸组合位于两个点之间线段上的任意点。
凸包(convex hull)
给定一组矢量(V = {v^1, v^2, cdots, v^k })，则V的凸包(convex hull)为：

[CoHull(V) = { \ v = sum_{j=1}^k alpha_j v^j \ where \ v in mathbb{R}^n, \ exists (alpha_1, cdots, alpha_k) in R_+^n, \ sum_{j=1}^k alpha_j = 1\ } ]

几何上的理解为：
当n = 2（矢量的维度是2）时，
两个点的凸包就是两个点之间线段;
多个点的凸包就是多个点之间组成的平面;
当n > 2（矢量的维度 > 2）时，
两个点的凸包就是两个点之间线段;
多个点的凸包就是多个点之间组成的多维空间（维度为(m leq n land m leq k - 1)）。

可行收益(feasible payoffs)
一个博弈的所有收益的凸包为可行收益的集合。

大众定理(the folk theorem)

(G(delta))为一个有限，同时选择的完整信息博弈，
(v^* = (v_1^*, cdots, v_n^*))为博弈G的一个纳什均衡的收益，也是G的可行收益。
如果存在(v_i > v_i^*, forall i in N, delta)为一个足够接近1的值，
则对于(G(delta))的无限重复博弈，存在一个子博弈精炼均衡，其平均收益接近于(v = (v_1, cdots, v_n))。

大众定理由于是多人贡献，也搞不清是那些人，而得名。

参照

相关阅读:
HTTPS
数字签名与数字证书
oracle 10g 数据库与客户端冲突导致实例创建无监听问题
javascript正则表达式提取子匹配项
设计模式的分类
【2020第一篇】环境问题基础知识
【致 2020】2020
【python】写demo 的时候，pycharm 编辑器总是提示"method XX may be static"
sql 练习题（二）
【python项目】json 和dict 的区别

原文地址：https://www.cnblogs.com/steven-yang/p/8275607.html

读书笔记: 博弈论导论

读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈 重复的博弈

重复的博弈(Repeated Games)

有限地重复的博弈

参照

读书笔记: 博弈论导论 - 10 - 完整信息的动态博弈重复的博弈