Preface
感觉比赛完了后有段空隙期,没事抬头看看天空,低头翻翻paper.
Text
问题在这本textbook的654页上的(17.7)
,是关于不动点的收敛问题。收敛性问题一向引人入胜,但刚看到这段的时候,还是没有从mess中理出来,还好后面Exercise 17.6
有guidance。把(b)问做了之后,发现(a)并没有那么trivial,于是记一下。
(b)
从guidance的思路出发,剩下的用一个如下的式子进行证明:
[egin{equation}
mathop{max}_{ain A(s)} left|sum_{s'}P(s'|s,a)left( U_i(s')-U'_i(s')
ight)
ight| leq mathop{max}_{s'} left| U_i(s')-U'_i(s')
ight| label{eq:17.6.b}
end{equation}
]
利用(P)的概率属性。
以下是关于(a)
的证明。
(a)
这是这篇想要说的主要内容,复述一下要证明的问题:
for any functions
(f) and (g)
[left|mathop{max}_{a}f(a)-mathop{max}_{a}g(a)
ight|leqmathop{max}_{a}left|f(a)-g(a)
ight|
]
感觉离上次看见Terence Tao的字眼已经很久了,思维启动起来有些慢,一开始还想从连续性方面考虑下(-_-||),后面发觉应该归为一般类的问题来考虑。
先做几个定义:
[egin{eqnarray}
f_a & :=& max f
onumber\
g_x &:=& max g
onumber\
h(y) &:=& left(f(y)-g(y)
ight)^2-(f_a-g_x)^2
onumber
end{eqnarray}
]
那么问题就转为证明:
[egin{equation}
exists y in D, ~ h(y) geq 0label{eq:proof1}
end{equation}
]
如果只考虑是个一般类问题的话,能着手的只有两个已知点,还好后面发现能work:
[egin{eqnarray}
h(a) &=& left( 2f_a -g(a) -g_x
ight)left(g_x-g(a)
ight)label{eq:h_a}\
h(x) &=& left(2g_x-f(x)-f_a
ight)left(f_a-f(x)
ight)label{eq:h_x}
end{eqnarray}
]
然后讨论(f_a,~g_x)的大小关系,发现总会存在(h(a)~OR~h(x)ge 0)的情况。
Note
这种更新方式很concise(也很nice),容易使人联想到EM
的策略,但EM却和不动点扯不上什么关系(真是遗憾)。
另外,(b)
的严格证明还没有进行,上面只是一些思路。