[文献记录]Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

[文献记录]Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

代码：ME-CNER

https://arxiv.org/pdf/1908.10657.pdf

识别文本中提到的命名实体将在下游级别丰富许多语义应用程序。但是，由于在微博中普遍使用口语，因此与在正式中文语料库中执行NER相比，中文微博中的命名实体识别（NER）经历了明显的性能下降。在本文中，我们提出了一个简单而有效的神经框架，以推导中文文本中NER的字符级嵌入，即ME-CNER。字符嵌入是从丰富的语义信息派生而来的，这些语义信息在从根部，字符到单词级别的多种粒度下得到利用。实验结果表明，所提出的方法在微博数据集上实现了较大的性能改进，在MSRA新闻数据集上实现了可比的性能，并且与现有的最新技术相比具有较低的计算成本。

利用偏旁来推断语义

先前的研究将字符级CNN模型用于NER任务。但是，CNN强调特定窗口内的局部n-char特征，并且无法捕获长期依赖关系。为了解决这个问题，我们提出了由GRU层和卷积层组成的卷积门控循环单元（Conv-GRU）网络。首先，将字符嵌入ci馈入GRU层。

[mathbf{x}_{i}=operatorname{GRU}left(mathbf{c}_{1}, ldots, mathbf{c}_{i} ight) ]
然后输出 (mathrm{X}=left[mathrm{x}_{1}, ldots, mathrm{x}_{l} ight]) 被输入到卷积层中，卷积层的长度与输入的长度相同, where (l) 是微博的长度

[mathrm{Y}=operatorname{Conv}(X) ]
最后，将卷积层的输出与GRU层的输出连接在一起，以形成每个字符的最终表示形式。

[mathbf{z}_{i}=mathbf{x}_{i} oplus mathbf{y}_{i} ]
这样，我们可以将本地上下文和长期依赖关系中的语义知识结合在一起。

为了对齐分段的单词和字符，我们将单词嵌入复制为其组成字符，for example，组成字符“班”（班级）和“长”（总统）均与嵌入“班长（班级总裁）”的共享word embedding。如果单词不在单词嵌入的词汇表中，我们将使用随机值初始化其嵌入。

我们将字符嵌入分为部首，字符和单词级别，以形成最终的字符表示形式。然后，我们利用BiRNN-CRF标记器标记每个句子。 BiGRU-CRF由向前和向后的GRU层以及位于前者之上的CRF层组成。在这里，我们使用腾讯AI Lab [14]（https://ai.tencent.com/ailab/nlp/embedding.com）提供的预先训练的嵌入来初始化单词嵌入和字符嵌入。
html）。

实验

我们利用[11]提供的标准微博NER数据集。
它由命名实体和名词性提及组成。另外，我们在正式的文本数据集MSRA新闻数据集[8]上进行实验，该数据集仅包含命名实体。表1显示了我们使用的两个数据集的统计信息。

使用结巴分词。

对于部首和字符级嵌入，我们将卷积层的内核大小设置为3。在Conv-GRU框架中，GRU的维度设置为150。嵌入大小固定为200。我们添加丢包的概率为0.8。我们将每个实验运行五次，然后报告平均准确度，召回率和F1分数。对于BiGRU标记器，使用BIO方案[13]。
相关阅读:
【ceph | 运维】部署osd
【osd | 运维】osd数据均衡
 leveldb——leveldb入门篇之Linux下编译配置和使用
 【Linux系统编程】预分配磁盘空间
 【filestore】源码剖析
 【Linux】Linux Page Cache的理解
 ceph internal 之底层对象
 【Linux】磁盘基础知识
 Spring Cloud Alibaba学习08Seata基本使用
 Spring Cloud Alibaba学习05Sentinel基本使用
原文地址：https://www.cnblogs.com/Tony100K/p/14432812.html

[文献记录]Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

实验