异构信息网络
异构信息网络
信息网络是知识表示的结构化文本方式,网络中包含一系列节点以及节点和节点之间的边。信息网络的经典例子如文献信息网络,其结构反映了储存在节点里的信息的结构,所以称为信息网络。另一个经典的例子就是万维网,对于这些网络的研究往往是将其视为同构信息网络来分析。随着信息网络研究的进一步加深以及近年来各种流行信息网络的涌现,例如社会媒体网络,维基百科里的知识网络等等,仅仅研究同构信息网络已经很难满足需求。
异构信息网络通过分析网络中的多种类型节点以及不同类型节点间的多种链接关系,能够准确地区分信息网络中的不同语意,挖掘出更加具有意义的知识。异构信息网络普遍存在于生活中的方方面面,例如文献信息网络、IMDB电影网络、Facebook网络、医疗网络、电子商务网络、新闻网络等等,是当前分析信息网络的一种热门而新颖的方法,受到广泛地关注。
异质信息网络英文全称 heterogeneous information network,也可以被译为异构信息网络,但这个概念可能与通信网络中的异构网络的概念混淆, 所以大多数都被翻译为异质信息网络。异质信息网络G=(V,E)包括不同类型的对象和关系,每个对象属于一个特定的对象类型, 每个关系属于一个特定的关系类型。比如说文献网络、社交媒体网络等。
文献信息网络是一种典型的异构信息网络,包含了四种不同类型的对象:作者(A),论文(P),会议期刊(C),关键词(K)。有多种链接类型连接不同类型的对象,链接的类型由链接所连接的两种对象类型定义。对于每一篇论文p∈P,有和作者、会议期刊、关键词、引用论文、被引用论文等之间的链接。下图为一个·简单的文献信息网络示例,左边是会议(C),中间是论文(P),右边是作者(A)
网络模式是异构信息网络的元模板,是定义于对象类型T的节点和来自关系R的边的有向图,表示为TG=(T,R)。
网络模式作为一种网络模板,清楚地让我们了解网络中有多少种对象类型以及这些对象类型之间有怎样的关系。
文献信息网络模式
对于上图中定义的文献信息网络,其网络模式如下图所示。作者和论文之间有写与被写的关系,论文和会议之间有发表于和发表的关系,论文和关键词之间有使用和被使用的关系,在论文和论文之间还存在着引用和被引用的关系。
元路径是定义在网络模式上的链接两类对象的一条路径,形式化定义为
表示对象类型之间的一种复合关系,其中代表关系之间的复合算子,表示对象类型,表示关系类型
PathSim算法
尽管已经有很多相似性度量方法,比如路径数、基于随机游走,这些方法大多偏向于高度可见或者高度集中的对象,不能捕捉到对等对象相似性的语义信息。在一些情况下,找到相似的相同类型对象具有十分重要的意义。比如根据自己的领域和声誉寻找相似的作者。在这种背景下,PathSim算法被提出,由于对等关系应该是对称的,因此,PathSim是一种基于对称元路径的相似性算法。
其中表示在元路径P下从对象X到对象Y的路径实例总数,表示在元路径P下从对象X到对象X自身的路径实例总数,表示在元路径P下从对象y到对象y自身的实例总数。
交换矩阵给定网络G=(V,E)和网络模式TG,元路径P=(A1A2…Al)的交换矩阵定义为
其中WAiAj是类型Ai和Aj之间的邻接矩阵,M(i,j)表示对象和对象在元路径P下的路径实例。利用交换矩阵计算两个应用程序xi,xj的相似性公式如下
PathSim算法通过元路径来进行相似性搜索,能够充分地挖掘异构信息网络中隐含的丰富语意,更好地满足用户的需求。同时,PathSim算法较好地克服了P-PageRank算法偏向于高可见度对象和SimRank算法偏向于高聚集对象的问题。
具体例子
为了更好的理解PathSim算法的原理,我们结合具体的例子进行说明,以对称元路径ACA为例,它表示的语义是两个作者(A)在同一个会议(C)上发表过论文。下面是一个网络中作者和会议间的邻接矩阵WAC,表示每个作者在每个会议上发表的论文数。
SIGMOD |
VLDB |
ICDE |
KDD |
|
Mike |
2 |
1 |
0 |
0 |
Jim |
50 |
20 |
0 |
0 |
Mary |
2 |
0 |
1 |
0 |
Bob |
2 |
1 |
0 |
0 |
Ann |
0 |
0 |
1 |
1 |
此例中交换矩阵M=WACWCA,计算结果为
Mike |
Jim |
Mary |
Bob |
Ann |
|
Mike |
5 |
120 |
4 |
5 |
0 |
Jim |
120 |
2900 |
100 |
120 |
0 |
Mary |
4 |
100 |
5 |
4 |
1 |
Bob |
5 |
120 |
4 |
5 |
0 |
Ann |
0 |
0 |
1 |
0 |
2 |
也可以直观的利用路径数进行理解
Mike到自身的路径数为2*2+1*1=5
Mike到Jim的路径数为2*50+1*20=120,Jim到Mike路径数相同
Mike和Jim之间的相似性可以利用相似性公式进行计算
将交换矩阵的计算结果带入相似性公式
所以作者Mike和作者Jim之间的相似性为0.0826