二. 知识图谱
(一).知识图谱的应用
首先通过知识图谱的应用引入这个概念,同时体会它的优点。传统的搜索引擎搜索“姚明的身高”,返回的结果是网页内容与姚明身高的相关一些列链接。如Yahoo:
自语义网的概念提出,越来越多的开放链接数据和用户生成内容被发布于互联网中。互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。
在此背景下,知识图谱(Knowledge Graph)于2012年5月首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善搜索结果。紧随其后,国内搜狗提出了“知立方”、微软的Probase和百度的“知心”。
如下图所示,通过知识图谱可以搜索到“姚明的女儿”,如百度知心:
(二).知识图谱的框架
通过上面的叙述,我们发现传统的搜索引擎和知识图谱的变化:
1.信息抽取目标发生了变化,传统的文本指定抽取(ACE)=>海量数据的发现(KBP);
2.从文本分析为核心转变成了知识发现为核心;
3.让计算机真正理解用户的查询需求,给出准确答案而不是给出相关的链接序列;
目前世界有代表性的知识库或应用系统包括KnowItAll、TextRunner、基于维基百科的DBpedia、YAGO;公司开发的知识搜索或计算平台如谷歌KnowledgeGraph、Facebook推出的实体搜索服务Graph Search、Evi公司TrueKnowledge知识搜索平台。
因王元卓等人提出的一种面向网络大数据的、开放的、自适应的、可演化的、可计算的知识计算引擎——OpenKN,其原理类似于知识图谱,故通过该框架图进行简单讲解。
这些模块实现了一个全生命周期的知识处理,从知识获取、知识融合、知识验证、知识计算、知识存储到知识服务与应用的知识处理工作流程。
知识库的构建:
包括知识获取和知识融合两方面。知识获取是从开放网页、在线百科和核心词库等数据中抽取概念、实体、属性和关系;只是融合的主要目的是实现知识的时序融合和多数据源融合。在完成知识库构建工作后得到的知识是显式的知识。
除了显示的知识,通过OpenKN的知识计算功能,包括属性计算、关系计算、实例计算等,我们还可以进一步获得隐式的或推断的知识。
知识验证和处理:
为了检验显示知识和隐式知识的完备性、相关性和一致性,我们需要对知识进行校验,这成为知识验证过程。主要是专家或特定的知识计算方法检查冗余的、冲突的、矛盾的或不完整的知识。
知识存储:
经过验证的海量知识,在OpenKN里存储在一个基于图的数据库(Graph DataBase, GDB)及关系数据库中。其中GDB中存储的是显示知识,关系数据库中存储的是隐式知识。与传统的数据库模型Titan相比,GDB通过定义点和边的图数据模型来存储知识,这里的点和边都有各自唯一的ID并且支持一系列的多值属性。GDB描述了一个与现有的图模型不同的异构网络,成为可演化知识网络。
OpenKN的两个主要特征——自适应和可演化性,即诠释了OpenKN的“Open”含义。
(三).搜狗知立方
这部分内容是我在百度文库中搜索知识图谱找到的,主要是张坤分享的“面向知识图谱的搜索技术”,关于搜狗知立方的,可惜没听到原作者的讲述。但我也分享他的几张图片,一目了然。
第一张图 搜索结构发生的变化
第三张图 知识库
比如张艺谋的国籍需要对齐“中华人民共和国”、“中国(内地)”、“中国”三个值实现属性值对齐,“记过”、“国籍”、“国籍”实现属性对齐;再如出生日期对齐“1951年11月14日”、“1951-11-14”、“1951-11-14”实现属性值对齐。
总结:最后还是希望文章对你有所帮助,它主要是关于搜索引擎和知识图谱的一篇入门知识介绍,至少让你明白存在这么个东西,相当于一篇普及知识吧!如果有错误或不足之处,请海涵~
参考资料下载: http://download.csdn.net/detail/eastmount/8906799
参考资料如下:
1.搜索引擎主要参考张俊林的书籍《这就是搜索引擎》,电子工业出版社
2.曲卫华,王群. 搜索引擎原理介绍与分析. 中国地质大学信息工程学院
3.佘正平. 搜索引擎原理及存在问题. 图书情报论坛
4.张蹇. 传统搜索引擎与智能搜索引擎比较研究. 郑州大学硕士学位论文
5.Eastmount. 知识图谱相关会议之观后感分享与学习总结
6.王元卓, 贾岩涛, 赵泽亚, 程学旗. OpenKN——网络大数据时代的知识计算引擎. 中科院计算机研究所
7.张坤. 面向知识图谱的搜索技术. 百度文库
(By:Eastmount 2015-7-16 晚上8点 http://blog.csdn.net/eastmount/)