[论文阅读笔记] A Multilayered Informative Random Walk for Attributed Social Network Embedding
本文结构
- 解决问题
- 主要贡献
- 算法原理
- 参考文献
(1) 解决问题
大多数现有的无监督属性网络表征算法都没有区分节点边结构和属性所蕴含的信息量。即,有时候两节点在拓扑上没有边,但是在属性上是非常相似的(节点拓扑和属性的不一致问题)。
(2) 主要贡献
Contribution 1: 提出MIRand(多层信息随机游走)方法,该方法首先构建一个多级图,其次利用一个新颖的随机游走(基于信息量,综合考虑了节点结构和属性)在多层图跳转捕获特征。这是第一个利用多层图随机游走的属性网络表示学习算法。(其中一层对应于结构,另一层处理与节点关联的属性)。其他基于随机游走的非属性网络表征算法也可以参考使用拓展到属性网络表征。
(3) 算法原理
论文所提MIRand算法主要包括以下三部分:
- 网络分层(结构层和属性层)。
- 基于节点信息量的多层图随机游走。
- 通过Skip-Gram模型来学习节点的向量表示。
以下从MIRand算法各个组成部分分别进行阐述:
-
第一步,网络分层(结构层和属性层): 结构层很简单,原始网络的拓扑结构(边图)就是该网络的结构图。可以通过计算节点的属性相似度来构造属性图中的边从而构造属性图,然而计算网络中所有节点对的属性相似度开销是非常大的,因此仅计算每个节点 θ x 平均度 个余弦相似度最大的节点连边,从而构造得到属性图。
-
第二步,基于节点信息量的多层图随机游走: 该随机游走会在属性图和结构图上跳转游走。当随机游走到达节点vi的时候,我们的目标是基于节点在对应层的信息量去选择跳转到结构或者属性图。那么怎么计算节点在结构层或者属性层的信息量呢? 作者认为在随机游走中应该尽可能向那些只和少量邻居具有强链接关系的节点转移,因为这些具有强链接关系的节点相似的置信度是比较高的。 论文中假设边权大于网络中平均边权的边为强链接边。而网络中具有强链接边的节点互为对方的强链接邻居。(结构图和属性图中的强链接邻居都如此定义)我们分别定义节点vi在结构图中具有的信息量和在属性图中具有的信息量如下公式所示。强链接邻居越多,则其具有的信息量就越低(度低的节点信息量高,这些节点和邻居的相似概率比高度节点和其邻居相似的概率也更大)。
根据当前节点的信息量我们可以定义层间的转移概率,即依概率选择下一个节点是在结构图中跳转还是在属性图中跳转。 那层内节点跳转的转移概率呢,如下公式所示:
上述层内转移概率分为两种情况。
(1) 如果节点i和节点j在l2层中没有边的话,那么下一跳依概率选择节点j邻居中边权大的。(2) 如果节点i和j有边,则按node2vec的方式游走。
以上阐述了层间转移概率和层内转移概率,现在基于信息量的随机游走应该已经搞懂了吧!!!
(MIRand可以扩展到具有多种类型属性的网络,设计更多层,然后利用信息量实在层间跳转。) -
第三步,按第三步训练Skip-Gram学习节点表示向量(不再赘述)。
(4) 参考文献
Bandyopadhyay S, Biswas A, Kara H, et al. A Multilayered Informative Random Walk for Attributed Social Network Embedding[J].