Bellman update中Value Iteration收敛证明

Bellman update中Value Iteration收敛证明

Preface

感觉比赛完了后有段空隙期，没事抬头看看天空，低头翻翻paper.

Text

问题在这本textbook的654页上的(17.7)，是关于不动点的收敛问题。收敛性问题一向引人入胜，但刚看到这段的时候，还是没有从mess中理出来，还好后面Exercise 17.6有guidance。把(b)问做了之后，发现(a)并没有那么trivial，于是记一下。

(b)

从guidance的思路出发，剩下的用一个如下的式子进行证明:

[egin{equation} mathop{max}_{ain A(s)} left|sum_{s'}P(s'|s,a)left( U_i(s')-U'_i(s') ight) ight| leq mathop{max}_{s'} left| U_i(s')-U'_i(s') ight| label{eq:17.6.b} end{equation} ]
利用(P)的概率属性。
以下是关于(a)的证明。

(a)

这是这篇想要说的主要内容，复述一下要证明的问题:
for any functions (f) and (g)

[left|mathop{max}_{a}f(a)-mathop{max}_{a}g(a) ight|leqmathop{max}_{a}left|f(a)-g(a) ight| ]
感觉离上次看见Terence Tao的字眼已经很久了，思维启动起来有些慢，一开始还想从连续性方面考虑下(-_-||)，后面发觉应该归为一般类的问题来考虑。
先做几个定义:

[egin{eqnarray} f_a & :=& max f onumber\ g_x &:=& max g onumber\ h(y) &:=& left(f(y)-g(y) ight)^2-(f_a-g_x)^2 onumber end{eqnarray} ]
那么问题就转为证明：

[egin{equation} exists y in D, ~ h(y) geq 0label{eq:proof1} end{equation} ]
如果只考虑是个一般类问题的话，能着手的只有两个已知点，还好后面发现能work:

[egin{eqnarray} h(a) &=& left( 2f_a -g(a) -g_x ight)left(g_x-g(a) ight)label{eq:h_a}\ h(x) &=& left(2g_x-f(x)-f_a ight)left(f_a-f(x) ight)label{eq:h_x} end{eqnarray} ]
然后讨论(f_a,~g_x)的大小关系，发现总会存在(h(a)~OR~h(x)ge 0)的情况。

Note

这种更新方式很concise(也很nice)，容易使人联想到EM的策略，但EM却和不动点扯不上什么关系(真是遗憾)。
另外，(b)的严格证明还没有进行，上面只是一些思路。
相关阅读:
【JAVAWEB学习笔记】网上商城实战3：购物模块和订单模块
 JAVAEE学习——hibernate01：简介、搭建、配置文件详解、API详解和CRM练习:保存客户
 【JAVAWEB学习笔记】网上商城实战2：异步加载分类、Redis缓存分类和显示商品
 征稿延期 | 2019亚洲语言处理国际大会（IALP2019）征稿延期
 征稿通知 | 2019亚洲语言处理国际大会（IALP2019）开始征稿
 ECNU·AntNLP主页船新上线！
[NAACL19]无监督循环神经网络文法 (URNNG)
[ICLR18]联合句法和词汇学习的神经语言模型
 [NAACL19]一个更好更快更强的序列标注成分句法分析器
 [EMNLP18]用序列标注来进行成分句法分析
原文地址：https://www.cnblogs.com/chenyliang/p/8021889.html

Bellman update中Value Iteration收敛证明

Preface

Text

(b)

(a)

Note