NLP | 自然语言处理

NLP | 自然语言处理

什么是标注？

在自然语言处理中有一个常见的任务，即标注。常见的有：1）词性标注（Part-Of-Speech Tagging），将句子中的每一个词标注词性，比如名词、动词等；2）实体标注（Name Entity Tagging），将句子中的特殊词标注，比如地址、日期、人物姓名等。

下图所看到的的是词性标注的案例，当输入一个句子时，计算机自己主动标注出每一个词的词性。

下图所看到的的是实体标注的案例，当输入一个句子时，计算机自己主动标注出特殊词的实体类别。

粗略看来。这并非一个简单问题。首先每一个词都可能有多个含义，不同情况表达不同含义。其次，一个词的含义或者词性也受到前后多个词的影响。

标注问题的数学表达

在找到解决方式之前，我们最好先用数学的语言来描写叙述一下这个问题。
当我们得到一个句子时，我们能够把它看做一个向量。令句子s有共计n个单词，第i个单词用xi来表示，显然s = x1, x2, ... xn。因此问题能够描写叙述成。对于每一个单词xi，我们须要分别给定一个标注yi，因而获得句子的标注y = y1, y2, ... yn。

综上所述，训练模型时我们期望对于不论什么一个句子s，我们须要得到全部可能出现的标注的概率p(y | s)，当中概率最大的y即是我们须要的结果。终于的表达式为tagging(s)= arg max(p(y|s))。

接下来。我们须要考虑怎样建立训练集并从中学习出上述的模型。首先，我须要获得一个已经标注好的语料库。语料库中有若干句子。每一个句子中的每一个词都已有标识。
然后，对于语料库中出现的全部的句子s与相应的标识y，我们能够学习出条件概率p(y， s)。即某个句子与其相应标识的出现概率。其次，因为语料库无法包括全部可能出现的句子，所以我们希望能够得到一个更加宽泛的表达式，通过贝叶斯公式，我们能够很看出p(y, s) = p(y) * p(s | y)，同一时候p(y | s) = p(y) * p(s | y) / p(s)；我们须要比較的是p(y | s)中的最大值而无需获得p(y | s)。因此显然p(s)的详细取值并不重要。因此我们仅仅须要考虑tagging(s)= arg max(p(y) * p(s | y))。

因为语料库无法保存全部客观存在的句子。我们必须找到一种方法来预计p(y)与p(s | y)的取值，而当中一种很有名的方法就是隐马尔科夫模型。

隐马尔科夫模型
我们依旧回到上述问题，给定一个句子s = x1, x2, ... xn，我们给出一个标识组合y = y1, y2, ... yn，使得y = arg max(p(y) * p(s | y)) = arg max(p(x1, x2, ... , xn, y1, y2, ..., yn))。

依据上一章《语言模型》所提到的。我们依旧对每一个句子做一点优化：
1）添加一个開始符号”*“。我们定义全部句子都是以”*“開始。即X-1 = X0 = *；

2）添加一个结束符号”STOP“，我们定义全部句子都是以”STOP“结束。

同一时候，隐马尔科夫模型须要我们做一些额外的如果来简化模型：

1）yk仅仅与前几个元素相关，即标识的语义相关性仅仅影响前后几个元素；

2）单词xk与相应的yk不受其它单词的影响，即p(xi | yi)相互独立.

经过简化以后。我们以三阶隐马尔科夫模型为例，表达式为 p(y1, y2, … yn | x1, x2, … xn) = p(y1, y2, … yn) * p(x1, x2, … xn | y1, y2, … yn) = ∏q(yj | yj-2, yj-1) * ∏ e(xi | yi)。显然，简化后的模型，单个单词在语料库中出现的频率会远远高于句子总体出现的频率。

參数估算
有了隐马尔科夫模型之后。我们须要做的就仅仅是估算參数q(yj | yj-2, yj-1)与e(xi | yi)。q(yj | yj-2, yj-1)在上一章《语言模型》中有具体的解释，而e(xi | yi)通过统计每一个单词在语料库中的出现情况能够轻松获得。然而有一种特殊情况，某些单词假设在语料库中没有出现，那么e(xi | yi) = 0将导致总体句子的出现概率为0。为了解决问题，我们能够採用一个简单的解决方式：

1）首先将语料库中全部的单词分为频繁词与非频繁词（通过一个阈值来确定）；

2）频繁词的e(xi | yi)将直接从语料库中统计得出。

3）非频繁词的通过预定的规则划分到多个群组中。通过统计群组的词频来确定e(xi | yi)。

比如，常见的分组方法例如以下图所看到的。这样的方式对于日期、姓名、缩写等特殊词的效果非常好。

算法的复杂度
如果我们已经训练得到q(yj | yj-2, yj-1)与e(xi | yi)，给定一个句子s = x1, x2, ... xn，我们应当怎样得到标注y = y1, y2, ... yn。

方法1：暴力方法。遍历全部可能出现的y1, y2, ... yn组合，计算概率并找出概率最大的值。显然，暴力方法的时间复杂度不会令人惬意。

方法2：动态规划，定义一个动态规划表达式m(k, u, v)，k表示句子的第k位，u，v表示前k为组成的子句的最后两个单词的标识。因此。递归方程能够表述为m(k, u, v) = max(m(k-1, w, u) * q(v | w, u) * e( x | v))。关于动态规划方法，leetcode里有不少案例能够说明。
相关阅读:
.vsdx 在线查看省的安装 visio 2013了
 桌面整理工具 rolan
第一节、ES6的开发环境搭建
 $("[lay-id='"+this.id+"']")
mathAge.call(btn) 函数call 改变函数内 this #js
viewer && ImageFlow 图片滚动组件图片点击放大可以滚轮放大缩小 viewer
ie11 突然不能加载外部css 很神奇头部改为 <!DOCTYPE> <html>
CODE[VS] 1219 骑士游历
 CODE[VS] 1169 传纸条
 CODE[VS] 1010 过河卒
原文地址：https://www.cnblogs.com/yxwkf/p/5150860.html

NLP | 自然语言处理

什么是标注？

标注问题的数学表达

隐马尔科夫模型

參数估算

算法的复杂度