第二章 知识表示学习
1. 任务定义、目标和研究意义
知识表示是知识获取与应用的基础,因此知识表示学习问题,是贯穿知识库 的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识, 网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表 实体间的关系。然而,基于网络形式的知识表示面临诸多挑战性难题,主要包括 如下两个方面:
(1)计算效率问题。基于网络的知识表示形式中,每个实体均用不同的节 点表示。当利用知识库计算实体间的语义或推理关系时,往往需要人们设计专门 的图算法来实现,存在可移植性差的问题。更重要的,基于图的算法计算复杂度 高,可扩展性差,当知识库规模达到一定规模时,就很难较好地满足实时计算的 需求。
(2)数据稀疏问题。与其他类型的大规模数据类似,大规模知识库也遵守 长尾分布,在长尾部分的实体和关系上,面临严重的数据稀疏问题。例如,对于 长尾部分的罕见实体,由于只有极少的知识或路径涉及它们,对这些实体的语义 或推理关系的计算往往准确率极低。
近年来,以深度学习[Bengio, et al., 2009]为代表的表示学习[Bengio, et al., 2013]技术异军突起,在语音识别、图像分析和自然语言处理领域获得广泛关注。 表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空 间中,两个对象距离越近,则说明其语义相似度越高。 知识表示学习,则是面向知识库中的实体和关系进行表示学习。知识表示学 习实现了对实体和关系的分布式表示,它具有以下主要优点:
(1)显著提升计算效率。知识库的三元组表示实际就是基于独热表示的。 如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和 推理关系,计算复杂度高,可扩展性差。而表示学习得到的分布式表示,则能够 高效地实现语义相似度计算等操作,显著提升计算效率。
(2)有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中, 使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要体现在两 个方面。一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间 的语义相似程度。另一方面,将大量对象投影到统一空间的过程,能够将高频对 象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性。
(3)实现异质信息融合。不同来源的异质信息需要融合为整体,才能得到 有效应用。例如,人们构造了大量知识库,这些知识库的构建规范和信息来源均有不同,例如著名的世界知识库有 DBPedia、YAGO、Freebase 等。大量实体和 关系在不同知识库中的名称不同。如何实现多知识库的有机融合,对知识库应用 具有重要意义。通过设计合理的表示学习模型,将不同来源的对象投影到同一个 语义空间中,就能够建立统一的表示空间,实现多知识库的信息融合。此外,当 我们在信息检索或自然语言处理中应用知识库时,往往需要计算查询词、句子、 文档和知识库实体之间的复杂语义关联。由于这些对象的异质性,在往常是棘手 问题。而知识表示学习亦能为此提供统一表示空间,轻而易举实现异质对象之间 的语义关联计算。
综上,由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现 异质信息融合,因此对于知识库的构建、推理和应用具有重要意义,值得广受关 注、深入研究。
2. 研究内容和关键科学问题
知识表示学习是面向知识库中实体和关系的表示学习。通过将实体或关系投 影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,可以高效地 计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有 重要意义。目前,已经在知识图谱补全、关系抽取等任务中取得了瞩目成果。但 是,知识表示学习仍然面临很多挑战。
2.1 复杂关系建模
现有知识表示学习方法无法有效地处理知识图谱中的复杂关系。这里的复杂 关系定义如下。按照知识库中关系两端连接实体的数目,可以将关系划分为 1-1、 1-N、N-1 和 N-N 四种类型。例如 N-1 类型关系指的是,该类型关系中的一个尾 实体会平均对应多个头实体,即我们将 1-N、N-1 和 N-N 称为复杂关系。研究发 现,各种知识获取算法在处理四种类型关系时的性能差异较大,在处理复杂关系 时性能显著降低。如何实现表示学习对复杂关系的建模成为知识表示学习的一个 难点。
2.2 多源信息融合
知识表示学习面临的另外一个重要挑战如何实现多源信息融合。现有的知识 表示学习模型仅利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识 有关的其他信息没有得到有效利用,例如: (1)知识库中的其他信息,如实体和关系的描述信息、类别信息等; (2)知识库外的海量信息,如互联网文本蕴含了大量与知识库实体和关系 有关的信息。 如何充分融合这些多源异质信息,实现知识表示学习,具有重要意义,可改善数据稀疏问题,提高知识表示的区分能力。
2.3 关系路径建模
在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。Lao 等人 曾提出 Path-Constraint Random Walk[Lao, et al., 2010]、Path Ranking Algorithm[Lao, et al., 2010]等算法,利用两实体间的关系路径信息,预测它们的关系,取得显著 效果,说明关系路径蕴含着丰富的信息。如何突破知识表示学习孤立学习每个三 元组的局限性,充分考虑关系路径信息是知识表示学习的关键问题。
3. 技术方法和研究现状
知识表示学习是近年来的研究热点,研究者提出了多种模型,学习知识库中 的实体和关系的表示。本节将主要介绍其中的代表方法。
结构表示[Bordes, et al. 2011](Structured Embedding,SE)是较早的几个知 识表示方法之一。对于一个事实三元组,SE 将头实体向量和尾实体向量通过关系的两个矩阵投影到关系的对应空间中,然后在该空间中计算两投影向量的距离。 这个距离反映了两个实体在该关系下的语义相关度,它们的距离越小,说明这两 个实体存在这种关系。然而,SE 模型有一个重要缺陷:它对头、尾实体使用两 个不同的矩阵进行投影,协同性较差,往往无法精确刻画两实体与关系之间的语 义联系。
因此,单层神经网络模型[Socher, et al. 2013](Single Layer Model, SLM) 尝试采用单层神经网络的非线性操作,来减轻 SE 无法协同精确刻画实体与关系 的语义联系的问题。虽然 SLM 是 SE 模型的改进版本,但是它的非线性操作仅 提供了实体和关系之间比较微弱的联系。与此同时,却引入了更加高的计算复杂度。
此外,语义匹配能量模型[Bordes, et al., 2012; Bordes, et al., 2014](Semantic Matching Energy,SME)提出更复杂的操作,寻找实体和关系之间的语义联系。 在 SME 中,每个实体和关系都用低维向量表示。在此基础上,SME 定义若干投 影矩阵,利用双线性函数来刻画实体与关系的内在联系。
同样利用双线性函数的 还有隐变量模型[Sutskever, et al., 2009; Jenatton, et al., 2012(] Latent Factor Model, LFM),该模型提出利用基于关系的双线性变换,刻画实体和关系之间的二阶联 系。与以往模型相比,LFM 取得巨大突破:通过简单有效的方法刻画了实体和 关系的语义联系,协同性较好,计算复杂度低。
后来的 DISTMULT 模型[Yang, et al., 2015]还探索了 LFM 的简化形式:将关系矩阵设置为对角阵。实验表明,这 种简化不仅极大降低了模型复杂度,模型效果还得到显著提升。
在 LFM 的基础 上,张量神经网络模型[Socher, et al. 2013](Neural Tensor Network,NTN)进一 步利用关系的双线性变换来刻画实体与关系之间的联系,其基本思想是用双线性 张量取代传统神经网络中的线性变换层,在不同的维度下将头、尾实体向量联系 起来。由于 NTN 引入了张量操作,虽然能够更精确地刻画实体和关系的复杂语义联系,但是计算复杂度非常高,需要大量三元组样例才能得到成分学习。实验 表明,NTN 在大规模稀疏知识图谱上的效果较差。
此外,矩阵分解同样是是得 到低维向量表示的重要途径。因此,也有研究者提出采用矩阵分解进行知识表示 学习。这方面的代表方法是 RESACL模型[Nickel, et al., 2011; Nickel, et al., 2012]。 RESACL 的基本思想与前述 LFM 类似。不同之处在于,RESACL 会优化张量中 的所有位置,包括值为 0 的位置;而 LFM 只会优化知识库中存在的三元组。
最近,Bordes 等人受到词向量空间对于词汇语义与句法关系存在有趣的平移 不变现象的启发,提出了 TransE 模型[Bordes, et al., 2013],将知识库中的关系看 作实体间的某种平移向量。与以往模型相比,TransE 模型参数较少,计算复杂度 低,却能直接建立实体和关系之间的复杂语义联系。Bordes 等人在 WordNet 和 Freebase 等数据集上进行链接预测等评测任务,实验表明 TransE 的性能较以往 模型有显著提升。特别是在大规模稀疏知识图谱上,TransE 的性能尤其惊人。由 于 TransE 简单有效,自提出以来,有大量研究工作对 TransE 进行扩展和应用。 可以说,TransE 已经成为知识表示学习的代表模型。在 TransE 的基础上,研究 者提出了众多改进模型来解决 TransE 中仍无法处理的问题。
3.1 复杂关系建模
TransE 由于模型简单,在大规模知识图谱上效果明显。但是也由于过于简单, 导致 TransE 在处理前面提到的知识库的复杂关系时捉襟见肘。例如,假如知识 库中有两个三元组,分别是(美国, 总统, 奥巴马)和(美国, 总统, 布什)。这里的 关系“总统”是典型的 1-N 的复杂关系。如果用 TransE 从这两个三元组学习知识 表示,将会使奥巴马和布什的向量变得相同。
为了解决 TransE 模型在处理 1-N、N-1、N-N 复杂关系时的局限性,TransH 模型[Wang, et al., 2014]提出让一个实体在不同的关系下拥有不同的表示。
TransR 模型[Lin, et al., 2015]进一步认为不同的关系拥有不同的语义空间。对每个三元 组,首先应将实体利用矩阵投影到对应的关系空间中,然后再建立从头实体到尾 实体的翻译关系。
针对在知识库中实体的异质性和不平衡性,还有 TransR 模型 中矩阵参数过多的问题,TransD 模型[Ji, et al., 2015]和 TranSparse 模型[18]对 TransR 模型中的投影矩阵进行了进一步的优化。
此外,TransG 模型[Xiao, et al., 2015]和 KG2E 模型[He, et al. 2015]提出了利用高斯分布来表示知识库中的实体 和关系,可以在表示过程中考虑实体和关系本身语义上的不确定性。
可以看到, 在TransE之后,在如何处理复杂关系建模的挑战问题上,提出了TransH、TransR、 TransD、TranSparse、TransG 和 KG2E 等多种模型,从不同角度尝试解决复杂关 系建模问题,可谓百花齐放。在相关数据集合上的实验表明,这些方法均较 TransE 有显著的性能提升,验证了这些方法的有效性。
3.2 多源信息融合
知识表示学习面临的另外一个重要挑战如何实现多源信息融合。现有的知识 表示学习模型如 TransE 等,仅利用知识图谱的三元组结构信息进行表示学习, 尚有大量与知识有关的其他信息没有得到有效利用。如何充分融合这些多源异质 信息,实现知识表示学习,具有重要意义,可以改善数据稀疏问题,提高知识表 示的区分能力。 在融合上述信息进行知识表示学习方面,已经有一些研究工作,但总体来讲 还处于起步状态,这里简单介绍其中几个代表性工作。
考虑实体描述的知识表示学习模型(Description- Embodied Knowledge Representation Learning,DKRL)[Xie, et al., 2016]。DKRL 模型提出在知识表示学习中考虑 Freebase 等知识库中提供的 实体描述文本信息。在文本表示方面,DKRL 考虑了两种模型:
- CBOW, 将文本中的词向量简单相加作为文本表示;
- 卷积神经网络,能够考虑文本 中的词序信息。
DKRL 的优势在于,除了能够提升实体表示的区分能力外,还能 实现对新实体的表示。当新出现一个未曾在知识库中的实体时,DKRL 可以根据 它的简短描述产生它的实体表示,用于知识图谱补全等任务。这对于不断扩充知 识图谱具有重要意义。 此外,Wang 等人提出在表示学习中考虑文本数据,利用 word2vec 学习维基 百科正文中的词表示,利用 TransE 学习知识库中的知识表示。然后利用维基百 科正文中的链接信息(锚文本与实体的对应关系),让文本中实体对应的词表示 与知识库中的实体表示尽可能接近,从而实现文本与知识库融合的表示学习。 Zhong 等人还将类似的想法用于融合实体描述信息[Zhong, et al., 2015]。 已有工作表明,多源信息融合能够有效提升知识表示的性能,特别是可以有 效处理新实体的表示问题。但是,也可以看出,多源信息融合的知识表示学习仍 处于非常起步的阶段,相关工作较少,考虑的信息源非常有限,有大量的信息(如 音频、图片、视频等)未被考虑,具有广阔的研究前景。
3.3 关系路径建模
在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。为了突破 TransE 等模型孤立学习每个三元组的局限性,Lin 等人提出考虑关系路径的表示 学习方法,以 TransE 作为扩展基础,提出 Path-based TransE(PTransE)模型[Lin, et al., 2015]。几乎同时,也有其他研究团队在知识表示学习中成功考虑了关系路 径的建模[Alberto, et al., 2015]。关系路径的表示学习也被用来进行基于知识库的 自动问答[Gu, et al., 2015]。 PTransE 等研究的实验表明,考虑关系路径能够极大提升知识表示学习的区分性,提高在知识图谱补全等任务上的性能。关系路径建模工作还比较初步,在关系路径的可靠性计算,关系路径的语义组合操作等方面,还有很多细致的考察 工作需要完成。
4. 技术展望与发展趋势
近年来知识表示学习已经崭露头角,在很多任务上展现了巨大的应用潜力。 对于 TransE 等模型面临的挑战,也已经提出了很多改进方案。然而,知识表示 学习距离真正实用还很远,本节将对知识表示学习的未来方向进行展望。
面向不同知识类型的知识表示学习 已有工作将知识库的关系划分为 1-1、1-N、N-1 和 N-N 四类,这种关系类 型划分略显粗糙,无法直观地解释知识的本质类型特点。近期发表在 Science 等 权威期刊的认知科学研究成果[Kemp, et al., 2009; Tenenbaum, et al., 2011] 总结认 为,人类知识包括以下几种结构:
(1)树状关系,表示实体间的层次分类关系;
(2)二维网格关系,表示现实世界的空间信息;
(3)单维顺序关系,表示实体 间的偏序关系;
(4)有向网络关系,表示实体间的关联或因果关系。
认知科学对 人类知识类型的总结,有助于对知识图谱中知识类型的划分和处理。未来有必要 结合人工智能和认知科学的最新研究成果,有针对性地设计知识类型划分标准, 开展面向不同复杂关系类型的知识表示学习研究。
多源信息融合的知识表示学习
在多源信息融合的知识表示学习方面,相关工作还比较有限,主要是考虑实 体描述的知识表示学习模型,以及文本与知识库融合的知识表示学习,这些模型 无论是信息来源,还是融合手段都非常有限。我们认为在多源信息融合的知识表 示学习方面,我们还可以对下列方面进行探索:
(1)融合知识库中实体和关系的 其他信息,知识库中拥有关于实体和关系的丰富信息,如描述文本、层次类型等。 有机融合这些信息,将显著提升知识表示学习的表示能力;
(2)融合互联网文本、 图像、音频、视频信息,互联网海量文本、音频、视频数据是知识库的重要知识 来源,有效地利用这些信息进行知识表示可以极大地提升现有知识表示方法的表 示能力;
(3)融合多知识库信息,人们利用不同的信息源构建了不同的知识库。 如何对多知识库信息进行融合表示,对于建立统一的大规模知识库意义重大。
考虑复杂推理模式的知识表示学习
考虑关系路径的知识表示学习,实际上是充分利用了两实体间的关系和关系 路径之间的推理模式,来为表示学习模型提供更精确的约束信息。例如,根据三 元组(康熙,父亲,雍正)和(雍正,父亲,乾隆)构成的“康熙”和“乾隆”之间 “父亲+父亲”的关系路径,再结合三元组(康熙,祖父,乾隆),PTransE 实际上 额外提供了“父亲+父亲=祖父”的推理模式,从而提升知识表示的精确性。
实际上,关系路径只是复杂推理模式中的一种特殊形式,它要求头实体和尾实体必须保持不变。但实际上,知识库中还有其他形式的推理模式,例如三元组 (美国,总统,奥巴马)和(奥巴马,是,美国人)之间就存在着推理关系,但 是两者的头、尾实体并不完全一致。如果能将这些复杂推理模式考虑到知识表示 学习中,将能更进一步提升知识表示的性能。 在该问题中,如何总结和表示这些复杂推理模式,是关键难题。目前来看, 一阶逻辑(First-Order Logic,FOL)是对复杂推理模式的较佳表示方案,未来我 们需要探索一阶逻辑的分布式表示,及其融合到知识表示学习中的技术方案。
面向大规模知识库的在线学习和快速学习 大规模知识库稀疏性很强。初步实验表明,已有表示学习模型在大规模知识 库上性能堪忧,特别是对低频实体和关系的表示效果较差。而且知识库规模不断 扩大,我们需要设计高效的在线学习方案。除了充分融合多源信息降低稀疏性之 外,我们还可以探索如何优化表示学习的方式,借鉴课程学习和迁移学习等算法 思想,进一步改善知识表示的效果。
基于知识分布式表示的应用 知识表示学习还处于起步阶段,在知识获取、融合和推理等方向均有广阔的 应用空间。我们需要在若干重要任务上探索和验证知识表示学习的有效性。例如, 关系抽取任务如果能够基于知识表示学习有效利用知识库信息,将能够极大提升 抽取性能和覆盖面。再如,我们可以充分利用表示学习在信息融合上的优势,实 现跨领域和跨语言的知识库融合。目前,知识分布式表示的作用已经在信息抽取、 自动问答、信息检索、推荐系统中得到初步验证,未来还需在更多任务上进行更 加深入的探索。