10_隐马尔可夫模型

10_隐马尔可夫模型

　　今天是2020年3月13日星期五。不知不觉已经在家待了这么多天了，从上一节EM算法开始，数学推导越来越多，用mathtype码公式真的是太漫长了。本来该笔记是打算把《统计学习方法》这本书做详细的解读，起初面对书里大量的数学推导，感到非常恐惧。假期“空窗”时间不少，才有了细嚼慢咽学习的机会。其实很大的原因是自己掌握的东西太少，知道的算法太少，所以才对这本书恐惧。买了一直放着不愿意学。现在到隐马尔可夫模型，再有一章条件随机场，监督学习部分就结束了。这一个月来，最大的收获是知道了“怎么学”。

　　新的章节抛出一个新的算法模型，往往丈二和尚摸不着头脑，什么都是新的。越是拖延进度越慢，更不能一口吃个胖子指望看一遍就能懂。书读百遍，其意自见，一遍不懂就再看一遍，一遍有一遍的收获。但这个过程千万不要盯着一本书看，一定要多找博客，多看知乎、CSDN，保持审视的态度，保留自己的见解。另外，我是喜欢直接看文字，实在不懂了才去翻视频看，觉得这种模式挺适合我。

　　学到第十章，发现书中的很多东西，没必要面面俱到，要适当的取舍和放过。因为毕竟这本书不是一次性消耗品，是值得深究和研习的。第一次不懂的东西，完全可以学习完所有章节，建立大的思维格局后，再重新考虑小细节。

　　接下来的所有章节，从例子出发，引入各个概念；手写推导过程；图解算法流程；最后实现代码。掰扯开来，其实也就是三个问题：该模型是什么样子的（考虑如何引入）；该模型为什么可以这样做（考虑如何理解推导过程）；该模型怎么应用（考虑代码实现和应用场景）。

GitHub：https://github.com/wangzycloud/statistical-learning-method

隐马尔科夫模型

引入

　　隐马尔科夫模型描述由隐藏的马尔可夫链随机生成观测序列的过程，属于生成模型。把这句话倒着思考一下：(1)该模型属于生成模型，会不会类似EM算法中考虑的，一个观测数据y的生成，中间需要经过一个隐藏状态z。(2)很明显这里生成的不是单个数据，而是单个数据构成的一个序列，并存在时序关系。（3）马尔可夫链是什么？在生成数据序列的过程中扮演什么角色？

　　先区分两个概念，“状态and观测”。在我的理解里，“状态”也好，“观测”也罢，不过是表达随机变量的一个说法。状态会有多个状态，观测会有多个观测，但同时只允许一个状态或者一个观测出现。例如，现在有四个盒子（灰、黄、绿、蓝），李华在五天内选盒子取球，规定每天只能取一个盒子（每个盒子被选的概率一样大）。问，李华这五天可能会有多少种取盒子的序列，并问取到某种序列的概率是多少？如下：

　　你知道的，这个组合数不小。因为每个盒子被选到的概率一样大，所以每个序列出现的概率相同。李华每天在盒子里取球（红、白），现在限制每个盒子红球、白球数目相同(红、白球各有五个)。问，李华五天内取到球的颜色的序列有多少种，并问取到某种序列的概率是多少？

　　显然，这个组合数要小一些。因为每个盒子中红白球数目相同，且此时盒子的选择（状态）对球的选取无影响，所以每个序列出现的概率相同。可是如果每个盒子中，红白球的数量不是五五开，各不相同呢？李华五天内取球的某个序列的概率，就不再相同了。另外，除了受到盒子内红白球的概率分布影响，还要受到某天会抽到哪个盒子的概率分布影响。

　　在上述例子中，把可能取到的盒子情况，称作“状态”；把可能会取到的球的情况，称作“观测”。在隐马尔科夫模型中，盒子会取到的各种状态，我们是观测不到的。而球的各种情况我们是知道的，可以被观测到。

　　取球要受到盒子所在状态的影响，示意图如下：

　　此时，还不能叫做隐马尔可夫模型的示例。需要继续给“取盒子->取球->得到观测序列”的过程施加限制条件。比如说，t时刻取到某个盒子，要受到t-1时刻盒子的状态影响。一个简单的例子，t-1时刻盒子是绿盒子，t时刻一定取灰色盒子，且t-1时刻取到绿盒子不对t+1、t+2、...、T时刻产生影响。具体一点，就是让“当前时刻隐藏状态”只受上一时刻“隐藏状态”影响，且与所处的时刻t无关。

　　通过一步步施加的各个条件，此时可以称作隐马尔可夫模型的示例了。

隐马尔科夫模型的基本概念

　　先上例子，盒子和球模型。

　　在这个例子中有两个随机序列，一个是盒子的序列（状态序列），也就是每次选取到的盒子序列，这个过程是隐藏的，观测不到从哪个盒子取球；一个是球的颜色序列（观测序列），我们只能知道取出来的各个球的颜色。

　　先分析一下取盒子环节，这是一个环环相扣的过程。从当前t-1时刻的盒子出发，考虑t时刻会取到哪个盒子，要符合规则。如当前盒子是1，根据上述规则，下一个盒子一定是盒子2。考虑t+2时刻会取到哪个盒子，要站在t+1时刻的盒子状态上，决定取哪一个盒子。所谓的马尔可夫性，很重要的一点，就是t-1时刻的状态只决定t时刻的状态（盒子1之后一定会取到盒子2），并不能决定t+1时刻状态的取值（盒子1之后，决定不了盒子2之后会取哪个盒子）。

　　再看一下取球环节，对应着描述中的从盒子中随机取球的过程。每个盒子里边红、白球的数目不同，不同的盒子取到红色球的概率不同。当前盒子有属于自己的概率分布，取球的概率不尽相同。

　　用数学语言完善完善以下过程：盒子可以构成一个集合；当前时刻的盒子如何确定下一个盒子，需要有状态转移概率；球可以够成一个集合；从不同盒子里边取球，需要知道每个盒子的概率分布；取了多少个球，需要有序列长度；最开始怎么选第一个盒子。

　　根据所给的条件，有以下：

　　重点看一下状态转移矩阵。

　　熟悉了这个例子，再来理解数学上的各个概念。

　　这里的状态随机序列就是每次取到盒子组成的序列，观测序列就是球颜色的序列。隐马尔科夫模型由状态的初始概率分布、状态中间的转移概率分布以及观测概率分布组成。

　　对应着看，Q就是例子中盒子的集合，V就是球颜色的集合，I是盒子序列，O是颜色序列。

　　令A为状态转移矩阵：

　　这里的变量i有点混乱，注意区分。公式10.2中，(1)a_ij中的i是状态转移矩阵A中的第i行的意思，a_ij也就是矩阵A中的第i行第j个元素，该值表示从第i个元素转移到第j个元素的概率；(2)i_t+1、i_t中的i是指该状态序列中的第t+1、第t个状态，这里i是序列的意思；(3)q_i中的i是在状态集合中取到哪个状态的意思。

　　t+1时刻能够取到哪个状态，要受到t时刻状态的影响。也就是在t时刻状态取某个值的条件下，t+1时刻才会有什么样的取值。矩阵A维度为N*N，也就是要知道该时刻每个状态对下一时刻每个状态的影响。

　　观测有M种，v_k可以理解为观测集合V中的第k个观测。在盒子和球的例子中，可以看到每个观测的取值，是由隐变量的状态->哪个盒子决定的，并且只与当前的盒子有关系，每个盒子有各自取球的概率分布。用概率符号表示就是公式10.4，表示在状态为第j个盒子的情况下，观测到v_k的概率。

　　用π来表示初始概率向量，也就是t=1序列起始时，根据一定的概率分布选择第一个盒子。

　　在这里，状态转移概率矩阵A与初始状态概率向量π确定了隐藏的马尔可夫链，可生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。

　　从上述描述及定义10.1可以看到，隐马尔科夫模型做了两个基本假设：

　　(1)再次回顾盒子和球模型，盒子的选择是不是只规定了时序上前后相邻的盒子该怎么选；而没有第一次选盒子1，第三次一定会选到盒子3这样的规定。也就是在任意时刻t的状态只依赖于其前一时刻t-1的状态，这就是马尔科夫链“齐次”的重要性质。

　　(2)观测独立性假设是指我们观测到的每一次现象（红球、白球），只与该球所在盒子的概率分布有关，与其它盒子的概率分布没有一点关系！与其它时刻的观测没有一点关系！

　　观测序列的生成过程可以由算法10.1描述。

　　HMM和CRF，与之前学习的各个模型，差别是比较大的，学习思路是要换一换。理解了隐马尔科夫模型的基本概念，下一步就是要考虑该模型可以做什么？怎么做？这里我接触的不多，只能顺着书本的思路，学习隐马尔可夫模型的三个基本问题。

　　1）概率计算问题。很自然的，考虑一下某个观测序列O出现的概率P(O|λ)。

　　2）学习问题。已知观测序列，用极大似然估计的方法估计模型参数λ=（A,B,π）。

　　3）预测问题，也称解码问题。知道模型参数，给定观测序列，求最有可能的对应的状态序列。

概率计算算法

1）直接计算

　　已知模型参数λ=（A,B,π）和观测序列O=(o1,o2,...,oT)，计算观测序列O出现的概率P(O|λ)。很容易想到，可以按照概率公式直接进行计算。把得到观测数据的过程，想象成两个阶段：选取状态和生成观测。第一步得到状态序列，第二步得到观测序列，可以应用乘法原理。不同的观测序列可以得到不同的观测序列，可以应用加法原理。类似于全概率公式，通过列举所有可能的状态序列I，求各个状态序列I上生成观测O的概率（也就是I,O的联合概率），然后对所有可能的状态序列求和，得到P(O|λ)。

　　容易理解，公式(10.10)为全部状态序列中某个状态序列I的概率计算公式；公式(10.11)为在该状态序列I条件下，观测序列为O时的条件概率计算方法；公式(10.12)为联合概率公式；公式(10.13)对所有可能的状态I求和，也就是求O的边缘概率（考虑在I出现的所有情况条件下，O出现的概率）。简单分析下，若状态数目为N，一共有T个状态序列，所以状态序列的可能性为N^T。每一种状态序列都要相应乘T个观测概率，所以最后的时间复杂度为O(TN^T)。用这种方法计算观测序列O出现的概率，是非常低效的。接下来介绍高效的计算方式，前向-后向算法。

2）前向算法

　　先来看一个新概念“前向概率”：

　　放在示意图上，如蓝色虚线框α₃(i)=P(o₁,o₂,o₃,i_t=q_i|λ)，可以从联合概率的角度理解。具体为 α_t=3(灰色盒子)=P(o₁=红球,o₂=白球,o₃=红球,i_t=3=灰色盒子|λ)：

　　在前向概率的基础上，定义前向算法为：

　　步骤(1),计算初值。注意这里α₁(i)应用向量来表示，在t=1，观测取到o₁时，各个隐藏状态i都有到达o₁的概率。计算分两步，从初始概率π_i到隐状态q_i，再从q_i经发射矩阵到观测o₁，需要对每个隐藏状态i计算。

　　步骤(2)，前向算法递推公式。α_t(i)递推到α_t+1(i)，公式(10.16)中的b_i(o_t+1)可以理解为下图第二步，由所在的状态q_i经发射矩阵得到观测o_t+1；a_ji可以理解为下图中的第一步，也就是由t时刻状态q_j经转移矩阵在t+1时刻状态为q_i的过程。

　　公式(10.16)中的求和符号，实际上反映的是t+1时刻取q_i时，其实t时刻的任何一个状态都可以转移到q_i，因此要把t时刻的每种状态都考虑到。

　　步骤(3)，终止。公式(10.17)的求和符号挺好理解的，因为，对i_T=q_i求和，实际上相当于求观测序列O的边缘概率。

　　再来看一下书中的详细解释：

　　通过画图，是不是要好理解一些~前向算法高效就高效在利用先前的局部计算结果，通过路径结构将局部结果“递推”到全局。

　　看一下例10.2，基本上就可以理解这个计算过程了。

3）后向算法

　　相应的，后向算法先了解“后向概率”这个概念。

　　放在示意图上，如绿色虚线框β₂(i)=P(o₃,...,o_T-1,o_T,i_t=q_i|λ)，可从条件概率的角度理解。具体为β_t=2(绿色盒子)=P(o₃=红球,o_T-1=红,o_T=红球|i_t=2=绿色盒子,λ)：

　　　在后向概率的基础上，定义后向算法为：

　　步骤（1），初始化后向概率。这里将最终时刻的所有状态q_i规定为β_T(i)=1以下示意图简单分析。

　　这就好像是β_t(i)=P(o_t+1,o_t+2,…,o_T|i_t=q_i, λ)变成了β_t(i)=P(i_t=q_i, λ)，此时对于i_t的所有取值，i_t=q_i，是一个不争的事实。

　　步骤（2），后向算法递推公式。这里的递推方向是反向由T+1递推到T,图示如下：

　　这里由T+1递推到T，仍然需要①②两处的连接。①是公式(10.20)中的a_ij，②是公式(10.20)中的b_j(o_t+1)。求和符号是t时刻q_i到t+1时刻q_j所有情况的汇总。取(q_i=灰色盒子，o_t+1=白球)进行分析：

　　　T+1递推到T，我觉得图画的应该差不多了...①②部分是怎样起到连接作用的...大概就是上图这样吧...我解释不出来...当然了，知乎也好CSDN也好，有详细推导公式，我就不班门弄斧了。书面解释如下：

　　于是，利用前向概率和后向概率的定义，可以将观测序列概率P(O|λ)同一写成：

　　示意图好像是这个样子：

　　公式(10.22)中，先来看前向概率的求和部分，i=1时，α_t(1)是t时刻盒子为灰盒子，观测序列为(o1,o2,...ot,it=q1)的概率；相应的，α_t(2)是t时刻盒子为黄盒子，观测序列为(o1,o2,...ot,it=q2)的概率；α_t(3)是t时刻盒子为绿盒子，观测序列为(o1,o2,...ot,it=q3)的概率；α_t(4)是t时刻盒子为蓝盒子，观测序列为(o1,o2,...ot,it=q4)的概率。那么求和自然就代表着，不考虑盒子的影响，观测序列为(o1,o2,...ot)的边缘概率。对应示意图，也就是消除了t时刻状态的影响。

　　同理，后向概率的求和部分，在示意图中相当于消除了t+1时刻状态的影响。①对应着公式(10.22)中的a_ij，建立连接。②对应着公式(10.22)中的b_j(o_t+1)，将o_t+1时刻的观测计入统计。

4）一些概率与期望值的计算

　　利用前向概率和后向概率，可以得到关于单个状态和两个状态概率的计算公式。头几遍看这几个公式的时候，丈二和尚摸不着头脑，不知道这几个概率计算有什么用，就没怎么好好看。编写这部分代码的时候，发现这几个公式挺重要的。在学习算法小结，对估计模型参数非常有用。公式介绍的挺具体的，这里就不在画图了...学习的时候随手画画图，就能理解了~

　　1)求单个状态的条件概率：

　　还是画吧，这里γ_t(i)反映是在给定观测序列O条件下，t时刻处于状态q_i的概率。如下图，γ_t(i=灰色盒子)。

　　2)求两个连续状态的条件概率：

　　　如下图所示ξ_t(i,j)反映的是，在给定观测序列O的条件下，t时刻状态为灰色盒子、t+1时刻状态为绿色盒子的条件概率。

　　3)一些有用的期望，在学习算法小节可以看到用处：

学习算法

　　书中提到，我们进行隐马尔可夫模型的学习，也就是对模型参数进行估计。根据训练数据是包括观测序列和对应的状态序列，还是只有观测序列，可以分别由监督学习和无监督学习实现，这里监督学习方法实际上就是利用极大似然估计。

　　1)监督学习方法。书中直接给出了参数估计公式，这里简单摘抄下~

　　2)无监督学习方法。顾名思义，无监督方法也就是只有观测序列，进行参数估计的方法。由于监督学习需要使用标注的训练数据，而人工标注训练数据往往代价很高。因此有时候就会利用无监督学习的方法。我们可以将观测序列数据看作EM算法中的不完全数据，状态序列数据看作EM算法中不可观测的隐数据，那么隐马尔可夫模型就可以看作是含有隐变量的概率模型。于是，可以通过EM算法求解。

　　详细过程如下：

　　1.确定完全数据的对数似然函数

　　2.EM算法的E步：求Q函数Q(λ,λ^)

　　3.EM算法的M步：极大化Q函数Q(λ,λ^)求模型参数A,B,π

　　书本上有详细的推导公式，看懂了2/3，先不摘抄了。有空了把理解了的整理上来，参数估计公式如下：

　　于是，有以下Baum-Welch算法，从这里可以发现一些期望的用处：

预测算法　　

　　预测算法，也就是根据已知的观测序列，找到概率最大的状态序列（最有可能的对应的状态序列）。

　　应用维特比算法，相当于有向无环图求最短路径，网上有大量详细的资料，暂不整理了~

代码效果
相关阅读:
Java后台插件(工具包)
LINQ系列：Linq to Object联接操作符
 LINQ系列：Linq to Object排序操作符
 LINQ系列：Linq to Object限制操作符
 LINQ系列：Linq to Object投影操作符
 LINQ系列：C#中与LINQ相关特性
 设计模式笔记：简单工厂模式（Simple Factory）
数据访问模式：数据并发控制（Data Concurrency Control）
数据访问模式：Identity Map（标识映射）模式
 设计模式笔记：开闭原则（OCP，The Open-Closed Principle）
原文地址：https://www.cnblogs.com/wangzycloud/p/13061188.html