• 长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)


    翻译学长的一片论文:Long Short-Term Memory Neural Networks for Chinese Word Segmentation

    传统的neural Model for Chinese Word  Segmentation

    中文分词一般是基于字符的序列标签。每个字符可以被标记为集合{B, M, E, S}中的一个元素。 B - Begin, M - Middle, E-End of a multi-character segmentation(多字符分割),S 代表 Single character segmentation。

    neural Model总共有三个专门(specialized)的层:

    • 字符嵌入层 (a character embedding layer)
    • 一系列传统的神经网络层(a series of classical neural network layers)
    • 标签推断层 ( tag inference layer)

     

    c(t)∈Rd,x(t) =[c(t-2),c(t-1),c(t),c(t+1),c(t+2)]∈RH1,H1=k*d, |T|为tags size(这边假设k=5)

    RNN Model

    输入序列:

    隐藏层update:

    我们看到,h(t)与h(t-1)是有关系的。

    PS:RNN实际上是无法学习长时间动力学行为的,梯度反向传播时,存在梯度爆炸(explode)消失(vanish)现象。

    LSTM Model

    LSTM提供一个记忆单元 CC的变化被三个门给控制:

    • 输入门input gate: i
    • 遗忘门forget gate: f
    • 输出门output gate: o

    下面是gate, cell update, hidden output update的定义

     

    PS: Wic, Wfc and Woc 是对角阵(diagonal matrices)   但是,在其他地Wic, Wfc and Woc 不是对角的的,而是额外再加个偏置bi,o,f

    LSTM Architectures for Chinese Word Segmentation

    LSTM-1: The LSTM-1 simply replace the hidden neurons with LSTM units

    LSTM-2:在LSTM-1的基础上再堆积一层,并且下一层的h(t)直接作为上一层的输入, 不做任何变化

    LSTM-3:在LSTM-1的基础上,将将局部的LSTM输出进行合并 ,将h'(t)=[h(t-m1),..,h(t),...,h(t+m2]代替原来的h(t)

    LSTM-4:在LSTM-3的基础上,再堆积一层

    Inference at Sentence Level

    由于标签之间存在一定关系,已有的工作是定义一个概率转移矩阵A=(Aij)4*4,

      Aij:代表Tag i 转移到 Tag j的转移概率,i,j ∈ T, |T|=4

    定义a sentence level score

     

    其中,是Tag 对应的score,就是网络输出的4维向量。涉及到的参数为

    θ={M, A, Wic, Wfc, Woc, Wix, Wfx, Wox, Wih, Wfh, Woh, Wcx, Wch}

     Training

    Max-Margin criterion

    定义Y (xi)为所有句子xi可能出现的标签集合,并且yixi对应的正确标签。

    定义

    其中,

    现在假设我们有一批训练数据,并且建立以下的L2范数下的正则化损失函数:

     

    用到的优化方法

    • subgradient method (Ratliff et al., 2007)
    • diagonal variant of AdaGrad (Duchi et al., 2011) 

         

     Dropout

    对于神经网络中的各个层的节点,都已p的概率选择睡眠,也就是1-p的概率被激活。(或者每层采取不同的p,反正得自己去试,看看怎么样的参数最好,文中是在input lay中取p=0.2)

    模型超参(hyper-parameters)设置:

  • 相关阅读:
    json数据解析转文本方法
    百度HttpV3版本图片识别
    项目用Socket网络框架+Protobuf
    各类数据类型的转换类
    异形按钮点击触发
    通过名字找物体工具
    任意图形工具
    Debug日志可视化
    fread不能读完整个文件
    生产者消费者问题——C++ windows版 多生产者多消费者的队列实现
  • 原文地址:https://www.cnblogs.com/skykill/p/6811977.html
Copyright © 2020-2023  润新知