大作业:
1.实现中文分词模型
神经语言模型
LSTM
2.
生成文本
参考:
1.https://zhuanlan.zhihu.com/p/29989121
条件随机场
条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型
为了让我们的分类器表现的更好,可以在标记数据的时候,可以考虑相邻数据的标记信息。这一点,是普通的分类器难以做到的。而这一块,也是CRF比较擅长的地方。
随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。
词性标注(POS Tagging)
以词性标注为例:假如有一个十个词组成的句子需要做词性标注。这十个词每个词的词性可以在已知的词性集合(名词,动词...)中去选择。当我们为每个词选择完词性后,这就形成了一个随机场。
linear-CRF,我们如何将其转化为可以学习的机器学习模型呢?
这是通过特征函数和其权重系数来定义的。什么是特征函数呢?
模型训练:
实现 CRFs 也需要解决如下三个问题:
特征选取
参数训练
解码