知识图谱构建
知识图谱由实体、实体的属性描述以及实体和实体之间的关联构成。尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难。在早期,知识图谱构建单纯依赖于人类专家。在这一方法中,知识图谱中的实体、实体属性与实体关联关系完全由专家人工构造,此类知识图谱包括WordNet[2]、CyC[3]等。WordNet定义了词汇之间的特定语义关系,包含约15万个词汇、20万个词汇语义对;CyC 包含了320万条人工定义的断言,涉及30万个概念、1.5万个谓词。随着互联网兴起,虽然依靠专家进行知识图谱构建能获得精度较高的知识,但其规模、构建的速度,以及构建成本已经完全无法适应大数据时代发掘大量涌现知识的需求。为此基于数据驱动的自动知识图谱构建方法,逐渐成为国际知识图谱研究的主要方向。
目前,国际上主流的知识图谱构建方法根据其知识来源与顶层概念设计理念可大致分为以下四大类。
1. 基于 Wikipedia infoboxes 等结构化数据的构建方法
这一方法以百科作为知识的主要来源,抽取百科词条作为实体,利用词条中的infobox来填充实体的属性,其主要代表如YAGO[4-6]、DBpedia[7-8]和Freebase[9]等。此类构建方法的特点是质量较高,但更新较慢。
2. 基于开放文档构建 (schemaless)
这一方法以互联网开放网页文档作为知识的主要来源,其基本假定为,如果已知两个实体存在特定的语义关系,那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用。于是可利用自然语言处理技术,从非结构化的文本中抽取名词短语作为实体、动词短语作为谓词,通过共现关联与句法分析发现实体之间的关系。其主要代表系统如Reverb[10]、OLLIE[11]和Prismatic[12]。此类方法可以汇聚大量实体与实体间关系谓词,其主要缺点是发现的知识噪音很大。
3. 基于 fixed ontology/schema 的构建方法
这一方法以少量人工定义的抽象ontology/schema作为知识图谱的顶层概念设计,以此来充实、汇聚符合顶层概念的实体与实体关系,并在此之上进一步发现新的概念,其代表系统如NELL[13]、PROSPERA[14]和DeepDive[15]等。此类方法可用于构建面向特定领域的知识图谱。
4. 基于层次化本体 (ontology) 的构建方法
这一方法综合使用上述几种方法来构建知识图谱,尽管可以得到大量的实体、属性、实体关系,但其涉及的顶层概念数量往往较少,而且不能反映概念间的层次特性,为此,另一些研究试图从开放领域寻找构建具有层次化特性的顶层概念的可能性,其主要代表为Probase[16]。Probase从开放域汇聚了约265万个概念,并计算这些概念的上下位关系,最后基于概率的方法,从横向与纵向对这些概念进行合并,形成一个具有丰富层次的概念树。
上述这几种知识图谱的构建方法均基于文本,目前针对跨媒体数据的自动知识网络构建方法鲜有研究。总体而言,随着现代人工智能技术的发展,基于非结构化开放文档的自动知识图谱构建将是未来发展的主要趋势。
摘自:https://yq.aliyun.com/articles/216742?spm=5176.10695662.1996646101.searchclickresult.668c4ca8rPKJCR