博弈论
概念
研究博弈论时,我们的目的是研究人们在不同的博弈环境下倾向于采取怎样的决策。
基本要素
- 参与者( 不少于两人,简单起见只考虑两人)
- 策略集
- 收益
基本假设
- 每个参与者都对博弈结构充分了解
- 参与者之间无法交流,也不会考虑个人收益之外的因素
- 每个参与者选择的策略都是为了达到自身收益最大化
最佳应对
假设S是参与者1采取的策略,T是参与者2采取的策略,记\(P_1(S,T)\)是参与者1在当前状况下取得的收益。设参与者1的其他策略组成集合\(S'\),若满足\(P_1(S,T)>=P_1(S',T)\),则称参与者1的策略S是参与者2的策略T的最佳应对。
若满足\(P_1(S,T)>P_1(S',T)\),则称参与者1的策略S是参与者2的策略T的严格最佳应对。
占优策略
在最佳应对讨论的问题中,若参与者1有策略M,使得M对参与者2的每一种策略都是最佳应对,即无论参与者2选择何种策略,参与者1都能通过策略M取得最大收益,则称策略M是占优策略。同理,若M对参与者2的每一种策略都是严格最佳应对,则称策略M是严格占优策略。
显然参与者会采取严格占优策略,但占优策略可能不止一个。如果存在多个潜在的占优策略,结果就难以预测。
博弈类型
在有限参与者和有限策略集的情况下,博弈总会存在均衡。 ——纳什
纳什均衡——博弈双方都无严格占优策略
若参与者1选择策略S,参与者2选择策略T,且S是T是最佳应对,T也是S的最佳应对,则策略组\((S, T)\)是一个纳什均衡。
此时,任何参与者都没有动机改变策略,因此系统处于均衡的状态中。
考试临近,由于时间紧迫,同一小组的学生A和学生B两人都必须独立作出决定:是复习考试,还是准备报告。不同方案的最终成绩如下:
(学生A,学生B) 复习 报告 复习 (88, 88) (86, 92) 报告 (86, 92) (90, 90) 对于学生A,如果学生B选择报告,则他应该选择复习以取得最大收益(92分);如果学生B选择复习,则他应该选择复习以取得最大收益(88分)。学生B同理。因此纳什均衡为(复习,复习)。
有些博弈中存在一个以上的纳什均衡,称为多重均衡。以下是一些多重均衡的例子。
协调博弈
两个参与者的目标是策略上的协调,也就是二者采取同样的策略时双方收益都最大。此时存在多个纳什均衡。
托马斯·谢林指出,由于社会习俗等与博弈本身无关的自然原因,参与者的选择会集中在某一个纳什均衡上。
假设你与队友合作展示项目,双方已经做好了分工,但无法联系。你必须决定是用PowerPoint还是Keynote来制作幻灯片。如果你们使用同样的软件制作,幻灯片就容易合并,否则就难以合并,甚至需要重新制作。
如果你事先知道你的队友使用Windows系统,而且你也是Windows系统,显然你应该用PowerPoint制作。
猎鹿博弈(协调博弈的变式)
两个猎人外出打猎,若他们合作,则可以打到鹿;若他们单独行动,则只能打到兔。若其中一个猎人想猎鹿而另一个想猎兔,猎兔的猎人仍能得到兔,但猎鹿的猎人一无所获。
(猎人1, 猎人2) 猎鹿 猎兔 猎鹿 4, 4 0, 3 猎兔 3, 0 3, 3
鹰鸽博弈(又称懦夫博弈)
两只动物同时得到了一堆食物,它们可以选择争夺食物(鹰派策略)或分享食物(鸽派策略)。若两只动物都选择分享,它们均匀分配食物,各得到3;若其中一只选择争夺,另一只选择分享,争夺方能得到5,分享方只能得到1;若两只动物都选择争夺,混战会给它们带来损失,二者都得到0.
(动物1, 动物2) 争夺 分享 争夺 0, 0 5, 1 分享 1, 5 3, 3
鹰鸽博弈中存在两个纳什均衡(鹰,鸽)和(鸽,鹰)。在没有充分掌握两只动物的情况时,无法预测哪种均衡会形成。
有些博弈中不存在纳什均衡,此时通过引入随机性来扩大参与者的策略集,进而预测策略。纳什指出,在有限参与者和有限策略集的情况下,博弈总会存在均衡。与此相关最简单的一类博弈称为攻防博弈。
混合策略:攻防博弈
两名参与者分别为进攻方和防守方。他们分别有两种策略可以采用。若防守方采取的策略正好对上进攻方的策略,则防守方收益大;否则进攻方收益大。
两参与者各持一枚硬币,同时展示该硬币。若两硬币朝向相同,参与者1赢得参与者2的硬币;反之,参与者2赢得参与者1的硬币。
(人1, 人2) 正 反 正 1, -1 -1, 1 反 -1, 1 1, -1 此类博弈中参与者的总收益是0,称为零和博弈。
现在向硬币博弈中引入随机性,参与者1有概率p选择正面,概率(1-p)选择反面(0<p<1). 同理,参与者2有概率q选择正面, 概率(1-q)选择反面(0<q<1). 此时我们可以计算出参与者1的收益期望:
参与者1选择正面:\(E_H=q-(1-q)=2q-1\) 参与者1选择反面:\(E_T=1-q-q=1-2q\)
显然,若\(E_H≠E_T\), 参与者1就有理由选择收益更大的策略,而参与者2也可以据此选择收益更大的策略。因此每个参与者都应该随机化自己的行为,即令\(P_H=P_T\)。此时\(2q-1=1-2q,\ q=0.5\),形成混合策略均衡。
帕累托最优
当每个参与者都从一个策略集中选择了一个策略,且不存在其他策略使所有参与者都得到至少和目前一样高的回报,且至少一个参与者能得到严格较高的回报,此时这组策略选择成为帕累托最优。
然而,如同上文中的考试问题,(报告,报告)、(报告,复习)、(复习,报告)都是帕累托最优,但(考试,考试)却是唯一的纳什均衡。即使参与人双方都知道存在另一个更优策略,除非有强有力的协议,否则也无法更换为更优策略。
社会最优
若一组策略选择使得参与者的回报之和最大,称为社会福利最大化(或社会最优)。
社会最优也一定是帕累托最优。纳什均衡和社会最优可能一致。
网络结构中的博弈
-
布雷斯悖论:网络中增加新的连接后反而可能使均衡状态的性能受损
流量模式:每个司机作出的路线选择;社会成本:所有司机使用该流量模式时产生的行程时间总和
解决方案:封路、收费
-
拍卖