知识图谱概论
知识图谱发展
- 语义网络:语义网络作为知识表示的一种方法被提出,主要用于自然语言理解领域
- 本体论:哲学概念“本体”被引入到人工智能领域用来刻画知识
- Web:万维网
- The Semantic Web:从超文本链接到语义链接
- 链接数据:语义网的本质是要建立开放数据之间的链接
- 知识图谱:谷歌发布了基于知识图谱的搜索引擎产品
知识图谱得益于Web的发展(更多的是数据层面),有着来源于KR、NLP、Web、AI多个方面的基因。
知识图谱的应用
辅助搜索、辅助回答、辅助决策、辅助AI:常识推理
知识图谱的本质
- Web视角:像建立文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索
- NLP视角:怎样从文本中抽取语义和数据化数据
- KR视角:怎样利用计算机符号来表示和处理知识
- AI视角:怎样利用知识库来辅助理解人的语言
- DB视角:用图的方式去存储知识
知识图谱项目
CYC、Wordnet、ConceptNet、Freebase、Wikidata、DBPedia、YAGO、Babelnet、NELL、Concept Graph、Zhishi.me
这里只介绍Concept Graph
- Concept Graph是以概念层次体系为中心的知识图谱,以概念定义和概念之间的ISA关系为主。
- Concept Graph可以用于短文本理解和语义消歧
- Concept Graph主要通过从互联网和网络日志中挖掘来构建
知识图谱技术概览
知识图谱的技术体系
- 数据来源:文本数据、结构化数据库、多媒体与传感器、众包
- 技术体系:知识表示、知识抽取、知识融合、知识众包、知识梳理、知识链接、知识问答、语义搜索、可视化
知识表示
- RDF:三元组(主谓宾,主语和宾语为节点,关系为边)。
- OWL:拓展了RDF模式(复杂类、属性约束、对称属性、传递属性、属性键等)
知识抽取:NLP+KR
各种非结构化文本数据->文本预处理(分词、词性标注、语法解析、依存分析)->NER命名实体识别、Entity Linking实体链接->关系抽取、事件抽取->KR(三元组、多元关系、模态知识)
- 知识工程:正则表达式、模板匹配、规则约束
- 基于本体的抽取:知识挖掘(推理)
- 基于模型的抽取:模型(SVM、条件随机场、LSTM)、训练(有监督学习、无监督学习、远程监督)
知识存储
- 知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题
- 典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储
- 在实践中,多为混合存储结构,图存储并非必须
知识问答
- 基于知识图谱形成的一个知识库
- 以直接而准确的方式回答用户自然语言提问的自动回答系统将构成下一代搜索引擎的基本形态
- 实现流程:首先基于问题,进行语义解析。然后由创立的知识库转换为问题的语义表示
知识推理
基于已知事实推出未知事实的计算过程
知识融合
在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更全面的实体信息
典型案例讲解
中医药知识平台
- 对中医药知识体系进行系统梳理、建模和展示
- 知识可视化以图形方式凸显核心概念之间的关系
- 辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。与阅读文献等手段相比,可以节约知识检索获取时间