Game Theory and Multi-agent Reinforcement Learning笔记上

Game Theory and Multi-agent Reinforcement Learning笔记上
一、引言
- 多智能体强化学习的标准模型：
  
  多智能体产生动作a1，a2.....an联合作用于环境，环境返回当前的状态st和奖励rt。智能体接受到系统的反馈st和ri，根据反馈信息选择下一步的策略。
二、重复博弈
1. 正规形式博弈
- 定义：正规形式的博弈是一个元组(n,A1,...,n,R1,...,n)
  n代表n个参与者
  Ak代表参与者k能够选择的动作
  Rk是参与者k的奖励函数，指定他通过执行动作a∈A1×A2....×An
-纯策略与混合策略：如果动作a ∈ Ak，且σk(a) = 1，而其他所有动作σall-k(a) = 0，则称为全策略。否则称为混合策略。
- 玩家k在策略配置σ下的预期回报：
- 经典的双人博弈：(a)匹配硬币，一种纯粹的竞争(零和)游戏。(b)囚徒困境，一般和博弈。(c)协调博弈，即共同利益(相同收益)博弈。(d)性别博弈，各主体偏好不同的协调博弈)纯纳什均衡用粗体表示。
  
  博弈a：玩家1和玩家2一起抛硬币，若是双方硬币是同一面的，则玩家1获胜，否则玩家2获胜。零和博弈
  博弈b：囚徒博弈，一般和博弈。
  博弈c：一个共同兴趣游戏。在这种情况下，两个玩家在每次联合行动中获得相同的收益。这个游戏的挑战是让玩家协调最优的联合行动。选择错误的联合行动将给出次优收益，而未能协调结果将得到0收益。
  博弈d：性别之战，是另一个协调游戏的例子。然而，在这里，玩家会获得个人奖励，并偏好不同的结果。Agent 1偏好(a1,a1)而Agent 2偏好(a2,a2)除了协调问题之外，玩家现在还必须就哪种优选结果达成一致。
- 3个动作的共同兴趣游戏：(a)攀爬对策(b)惩罚对策，k≤0。这两款游戏都具有共同的兴趣类型。纯纳什均衡用粗体表示。
1. 博弈中的解决方案概念
- 定义：设σ = (σ1,…,σn)是一个策略配置，令表示相同的策略配置，但不包含参与人k的策略σk。如果下列条件成立，则称为参与人k的最佳响应:
- 纳什均衡的定义：（纳什均衡是博弈的核心解决概念）
  如果对于每个玩家k，策略σk是对其他玩家σ−k的策略的最佳响应，则策略轮廓σ=(σ1，...，σn)被称为纳什均衡。
1. 重复博弈中的强化学习
- 遗憾值定义：
  
  其中a(t)表示在t时玩的联合动作，a−k(t)∪{a}表示相同的联合动作，但玩家k选择动作a。
- 梯度上升方法
  线性奖励-处罚：
  
  r(t)为时刻t接收到的反馈，K为自动机可用的动作数。λ1 和λ2 是常数，分别称为奖励和惩罚参数。根据这些参数的值，可以考虑算法的3种不同的变化。当λ1 =λ2，该算法被称为线性奖罚(LR−P)，而当λ1 > >λ2时，称为线性奖励-ε惩罚(LR−εP)。．如果λ2 = 0的算法被称为线性奖励-不作为(LR−I)．
顺序博弈
1. 马尔可夫场
- 定义：马尔可夫对策是一个元组(n,S,A1,...,n, R1,...,nT):
  n 系统中智能体的个数
  S 系统状态的有限集合
  Ak 智能体k的动作集合
  Rk 智能体k的奖励函数
  T 转移函数
  在联合策略下π = (π1,π…n)，agent k的期望折扣报酬的定义如下：
  
  该策略为每一个代理i分配了一个策略πi
  而该联合策略下agent k的平均报酬定义为:
相关阅读:
《3D Math Primer for Graphics and Game Development》读书笔记1
OpenGL学习资料汇总
 [Unity3D]做个小Demo学习Input.touches
[Unity3D]再次点击以退出程序
 图文详解Unity3D中Material的Tiling和Offset是怎么回事
 自制Unity小游戏TankHero-2D(5)声音+爆炸+场景切换+武器弹药
 自制Unity小游戏TankHero-2D(4)关卡+小地图图标+碰撞条件分析
 Unity3D核心类型一览
 自制Unity小游戏TankHero-2D(3)开始玩起来
 自制Unity小游戏TankHero-2D(2)制作敌方坦克
原文地址：https://www.cnblogs.com/suancai/p/15392723.html

Game Theory and Multi-agent Reinforcement Learning笔记 上

一、引言

二、重复博弈

顺序博弈

Game Theory and Multi-agent Reinforcement Learning笔记上