• 《数学之美》——第五章 个人笔记


    第五章     隐含马尔可夫模型

    1 通信模型

    通信的本质是一个编解码和传输的过程。

    典型的通信系统:

    包含雅格布森通信的六个要素:发送者(信息源),信道,接收者,信息,上下文和编码。

    其中S1,S2,S3,... 表示信息源发出的信号,比如手机。O1,O2,O3,...是接收器接收到的信号。通信中的解码就是根据接收到的信号O1,O2,O3,...还原出发送的信号S1,S2,S3,...。

    在通信中,如何实现上面的解码呢?只需要从所有的源信号中找到最可能产生出观测信号的那一个信息。

    用概率论表述:就是在已知O1,O2,O3,...的情况下,求得令条件概率P(S1,S2,S3,...丨O1,O2,O3,...)达到最大值的那个信息串S1,S2,S3,...,即

    利用贝叶斯将上式变成:

    分子第一个表示信息S1,S2,S3,...在传输后变成接收信号O1,O2,O3,...的可能性;第二个表示S1,S2,S3,...本身是一个在接收端正常的信号的可能性;分母表示发送端产生信息O1,O2,O3,...的可能性。其中,P(O1,O2,O3,...)是可以忽略的常数。等价于求分子:

    分子可以用隐含马尔可夫模型来估计

    2 隐含马尔可夫模型

    一个离散的马尔可夫过程:

    四个圈表示四个状态,每条边表示一个可能的状态转换,边上的权值是转移概率。文中有具体解释

    隐含马尔可夫模型是上述马尔可夫链的一个扩展:任一时刻 t 的状态St是不可见的。所以无法通过观察到一个状态序列S1,S2,S3,...,ST来推测转移概率等参数。但是,在每个时刻 t 会输出一个符号Ot ,而且Ot 跟St 相关且仅跟St 相关。这个被称为独立输出假设。

    隐含马尔可夫模型的结构如下:

    基于上述内容,我们可以计算出某个特定的状态序列S1,S2,S3,...产生出输出符号O1,O2,O3,...的概率。

    该式子与上面式子(上面那个分子)相似。把马尔可夫假设和独立输出假设用于通信的解码问题(上面的那个分子)

    就是把

    带入分子,可以等到上式。PS:等号右边第一个概率相当于分子的第二个概率,而第二个概率相当于分子的第一个概率。

    3 延伸阅读:隐含马尔可夫模型的训练

    该模型有三个基本问题:

    ①给定一个模型,如何计算某个特定的输出序列的概率。(Forward-Backward算法)

    ②给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列。(维特比算法)

    ③给定足够量的观测数据,如何估计隐含马尔可夫模型的参数。(接下里讨论的问题)

    实际中,首先要知道P(St丨St-1),也就是转移概率,和P(Ot丨St),也称为生成概率。这些概率被称为隐含马尔可夫模型的参数,

    计算或估计这些参数的过程称为模型的训练

    从条件概率出发:

    对于状态输出概率,如果有足够多人工标记的数据,知道经过状态St有多少次#(St),每次经过这个状态时,分别产生的输出Ot是什么,而且分别有多少次#(Ot,St)就可以用两者的比值

    直接估算出模型的参数。因为数据是人工标注的,因此这种方法被称为有监督的训练方法

    对于转移概率,和前面提到的训练统计语言模型的条件概率是完全相同的,因此依照

    有监督的训练的前提是需要大量人工标注的数据。很多应用无法做到

    因此,训练马尔可夫模型更实用的方法是仅仅通过大量观测到的信号O1,O2,O3,...就能推算模型的参数P(St丨St-1)和P(Ot丨St)    的方法,这类方法称为无监督的训练方法。其中主要使用的是鲍姆-韦尔奇算法(Baum-Welch Algorithm)

    文中具体对鲍姆-韦尔奇算法做了说明。

    鲍姆-韦尔奇算法每一次迭代都是不断地估计新的模型参数,使得输出的概率(目标函数)达到最大化,因此这个过程被称为期望值最大化(Expectation-Maximiztion),简称EM过程。

    EM过程保证一定能收敛到一个局部最优点,但全局却不是。(目标函数是凸函数则可以)

  • 相关阅读:
    C基础02天——笔记
    C基础-指针和数组等价转换
    C基础04天—选择排序笔记
    C基础-标准C语言头文件
    C基础-C的关键字
    Ubuntu linux 环境基本使用
    C基础01天——常量变量笔记
    根据评分,用js输出评价星星的样式
    横向滚动条展示 css
    ajax 城市区域选择三级联动
  • 原文地址:https://www.cnblogs.com/NEWzyz/p/8933036.html
Copyright © 2020-2023  润新知