第三章 实体识别与链接
1. 任务定义、目标和研究意义
实体是文本中承载信息的重要语言单位,也是知识图谱的核心单元。
命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别的任 务[Chinchor & Robinson, 1997]。常用实体类别包括人名、地名、机构名、日期等。
实体链接主要解决实体名的歧义性和多样性问题,是指将文本中实体名指向其 所代表的真实世界实体的任务,也通常被称为实体消歧。例如,给 一句话“苹果发布了最新产品 iPhone X”,实体链接系统需要将文本中的“苹果”与 其真实世界所指的“苹果公司”进行对应。 实体识别与链接是海量文本分析的核心技术,为解决信息过载提供了有效 手段。
2. 研究内容和挑战问题
实体分析任务主要面临以下几个关键科学问题:
1. 实体名的歧义性和多样性。
2. 资源缺乏(Low Resource)问题。目前绝大部分的实体分析算法都依赖于有 监督模型,需要大量的训练语料来达到实用性能。然而,考虑到标注语料的成本, 在绝大部分情况下都不可能获得足够的训练语料来处理不同的领域、面向不同风 格的文本(规范、非规范)、不同的语言(中文、英文、一带一路小语种等)等 多种多样的情况。无需大量训练语料的无监督/半监督技术,资源自动构建技术, 以及迁移学习等技术是解决上述问题的核心研究问题。
3. 实体的开放性问题。实体具有复杂性和开放性的特点。实体的复杂性指 的是实体的类型多种多样,同时类型之间具有复杂的层次结构。实体的开放性指 实体并不是一个封闭的集合,而是随着时间增加、演化和失效。实体的开放性和 复杂性给实体分析带来了巨大的挑战:开放性使得现有有监督方法无法适应开放 知识的抽取;实体的巨大规模使得无法使用枚举或者人工编写的方式来进行处理, 同时随着时间变化现有模型的性能会下降。
3. 技术方法和研究现状
传统方法:
NER用CRF。
实体链接采用计算实体提及(mention)和知识库中实体的相 似度,并基于上述相似度选择特定实体提及的目标实体。
深度学习方法:
实体识别。随着深度学习在不同领域的火爆,越来越多的深度学习模型被提 出用于解决实体识别问题。目前存在两类用于命名实体识别的典型深度学习架构, 一种是 NN-CRF 架构[Lample et al, 2016],在该架构中,CNN/LSTM 被用来学习 每一个词位置处的向量表示,基于该向量表示,NN-CRF 解码该位置处的最佳标 签。第二种是采用滑动窗口分类的思想,使用神经网络学习句子中的每一个 ngram 的表示,然后预测该 ngram 是否是一个目标实体[Xu et al., 2017]。
实体链接。实体链接的核心是构建多类型多模态上下文及知识的统一表示, 并建模不同信息、不同证据之间的相互交互。通过将不同类型的信息映射到相同 的特征空间,并提供高效的端到端训练算法,深度学习方法给上述任务提供了强 有力的工具。目前的相关工作包括多源异构证据的向量表示学习、以及不同证据 之间相似度的学习等工作[Ganea & Hofmann, 2017] [Gupta et al., 2017] [Sil et al., 2018] 。 相比传统统计方法,深度学习方法的主要优点是其训练是一个端到端的过程, 无需人工定义相关的特征。另外一个优点是深度学习可以学习任务特定的表示, 建立不同模态、不同类型、不同语言之间信息的关联,从而取得更好的实体分析 性能。目前,如何在深度学习方法中融入知识指导(如语言学结构约束、知识结 构)、考虑多任务之间的约束、以及如何将深度学习用于解决资源缺乏问题(如构 建语言无关的命名实体识别)是当前的工作的热点。
文本挖掘方法
传统统计方法和深度学习方法都需要大量训练语料和预先明确定义的目标 实体类别,无法处理大数据环境下的开放实体分析任务。除非结构化文本之外, Web 中往往还存在大量的半结构高质量数据源,如维基百科、网页中的表格、列 表、搜索引擎的查询日志等等。这些结构往往蕴含有丰富的语义信息。因此,半 结构 Web 数据源上的语义知识获取(knowledge harvesting),如大规模知识共享 社区(如百度百科、互动百科、维基百科)上的实体知识抽取,往往采用文本挖 掘 的 方 法 。 代 表 性 文 本 挖 掘 抽 取 系 统 包 括 DBPedia[Auer et al., 2007] 、 Yago[Suchanek & Kasneci, 2008、BabelNet、NELL 和 Kylin 等等。文本挖掘方法 的核心是构建从特定结构(如列表、Infobox)构建实体挖掘的特定规则。由于规 则本身可能带有不确定性和歧义性,同时目标结构可能会有一定的噪音,文本挖 掘方法往往基于特定算法来对语义知识进行评分和过滤。 此外,人们发现结构化数据源只包含有限类别的实体,对长尾类别覆盖不足, 另一方面的实体获取技术往往采用 Bootstrapping 策略,充分利用大数据的冗余 性,开放式的从 Web 中获取指定类型的实体。该部分的代表性的工作包括 TextRunner 系统和 Snowball 系统[Agichtein & Gravano, 2000]。
开放式实体集合 扩展的主要问题是语义漂移问题,近年来的主要工作集中在解决该问题。具体技 术包括互斥 Bootstrapping 技术、Co-Training 技术和 Co-Bootstrapping 技术。文本挖掘方法只从容易获取且具有明确结构的语料中抽取知识,因此抽取出 来的知识质量往往较高。然而,仅仅依靠结构化数据挖掘无法覆盖人类的大部分 语义知识:首先,绝大部分结构化数据源中的知识都是流行度高的知识,对长尾 知识的覆盖不足;此外,人们发现现有结构化数据源只能覆盖有限类别的语义知 识,相比人类的知识仍远远不够。
因此,如何结合文本挖掘方法(面向半结构化 数据,抽取出的知识质量高但覆盖度低)和文本抽取方法(面向非结构化数据, 抽取出的知识相比文本挖掘方法质量低但覆盖度高)的优点,融合来自不同数据 源的知识,并将其与现有大规模知识库集成[Nakashole et al., 2012],是文本挖掘 方法的研究方向之一。
4. 技术展望与发展趋势
纵观实体识别研究发展的态势和技术现状,我们认为其发展方向如下:
1. 融合先验知识的深度学习模型
近年来,深度学习模型已经在实体识别和链接任务上取得了长足的进展,并 展现了相当的技术潜力和优势。但是目前的深度学习模型的成功仍然依赖于大量 的训练语料,缺乏面向任务特点的针对性设计。 之前的传统统计模型中已经证明许多先验知识对于实体识别和链接任务的有效性,如句法结构、语言学知识、任务本身约束、知识库知识和特征结构等。 如何在深度学习模型中融合上述先验知识并进行针对性的设计是提升现有深度 模型的有效手段之一。 另一方面,现有深度模型在进行实体分析时仍然是一个黑箱模型,导致其可 解释性不强,且难以采用增量的方式构建模型。如何构建可解释、增量式的深度 学习模型也是未来值得解决的一个问题。
2. 资源缺乏环境下的实体分析技术
目前,绝大部分实体分析研究集中在构建更精准的模型和方法,这些方法通 常面向预先定义好的实体类别,使用标注语料训练模型参数。然而,在构建真实 环境下的信息抽取系统时,这些有监督方法往往具有如下不足:
1)现有监督模 型在更换语料类型之后,往往会有一个大幅度的性能下降;
2)现有监督模型无 法分析目标类别之外的实体;
3)现有监督模型依赖于大规模的训练语料来提升 模型性能。
为解决上述问题,如何构建资源缺乏环境下的实体分析系统是相关技术实用 化的核心问题。相关研究方向包括:构建迁移学习技术,充分利用已有的训练语 料;研究自学习技术,在极少人工干预下构建高性能的终生学习信息抽取系统; 研究增量学习技术,自动的重用之前的信息抽取模块,使得不同资源可以逐步增 强,而不是每次都重头开始训练;研究无监督/半监督/知识监督技术,探索现有 有监督学习技术之外的有效手段,解决标注语料瓶颈问题。
3. 面向开放域的可扩展实体分析技术
由于实体分析任务的基础性,越来越多的任务和应用需要实体识别和链接技 术的支撑。这就要求实体分析技术能够处理各种不同的情境带来的挑战,在开放 环境下取得良好性能。然而,现有实体分析系统往往针对新闻文本,对其它情境 下(如不同文本类型微博、评论、列表页面等,不同上下文如多模态上下文、短 文本上下文和数据库上下文)的研究不足。 因此,实体分析的发展方向之一是构建面向开放域的可扩展实体分析技术。 具体包括:
1)数据规模上的可扩展性:信息抽取系统需要能够高效的处理海量 规模的待抽取数据;
2)数据源类型上的可扩展性:信息抽取系统需要能够在面 对不同类型数据源时取得鲁棒的性能;
3)领域的可扩展性:信息抽取系统需要 能够方便的从一个领域迁移到另一个领域;
4)上下文的可扩展性:实体分析系 统需要能够处理不同的上下文,并针对不同上下文的特定自适应的改进自身。