一、知识图谱概述
- 知识图谱早期由语义网络(Semantic Web)发展而来
- 常见知识图谱:WordNet、ConceptNet5.0、Yago、DBpedia、Freebase、Schema.org、WikiData、Google and OpenKG
- 知识图谱的应用价值:辅助搜索、辅助问答、辅助大数据分析、辅助语言理解、辅助设备互联
- 知识图谱技术流程:知识表示 -> 知识获取 -> 知识融合 -> 知识推理 -> 知识检索 -> 知识分析
二、知识图谱表示与建模
- 两种知识表示:基于离散符号的知识表示(RDF,OWL) VS 基于连续向量的知识表示(Tensor, 各种Embedding)
- 语义网知识表示框架:RDF(三元组)、OWL(适用更复杂语义)、SPARQL(知识图谱查询语言)和 JSON-LD等语义Markup表示语言
- 知识图谱的向量表示方法:独热编码(One-Hot Encoding) 、词袋模型(Bag-of-Words,BoW)和词向量(Word Embedding)
- 知识图谱嵌入的主要方法:转移距离模型、语义匹配模型、考虑附加信息模型
- 开源知识建模工具:Protégé
* 知识图谱嵌入应用:
- 连接预测 (Link Prediction): 通过一个已知实体和关系预测另一个实体,或者通过两个实体预测关系
- 三元组分类 (Triple Classification): 判定三元组真假
- 实体对齐 (Entity Resolution): 验证两个实体是否指代或引用同一个事物或对象
- 问答系统 (Question Answering System): 通过三元组形式回答自然语言表达的问题
- 推荐系统 (Recommended system): 对用户和物品项目之间的交互进行建模
三、知识存储
- 知识图谱数据模型:RDF 图(RDF Graph) VS 属性图(Property Graph)
- 知识图谱查询语言: SPARQL、Cypher and Gremlin
- 最流行的图数据库 Neo4j
四、知识抽取与知识挖掘
- 知识抽取是构建大规模知识图谱的重要环节,而知识挖掘则是在已知知识图谱的基础上发现其隐藏的知识
- 知识抽取的数据源:结构化数据(如连接数据、数据库)、半结构化数据(如网页中的表格)、或者非结构化数据(即纯文本数据)
- 非结构化数据抽取:实体抽取、关系抽取和事件抽取
- 结构化数据抽取:两种映射语言 DM(Direct Mapping) and R2RML 完成从关系数据库到RDF图的映射过程