• 【论文笔记】社交网络中的信息扩散分析及其应用研究


    Study on Information Diffusion Analysis in Social Networks and Its Applications

    社交网络中的信息扩散分析及其应用研究

    给出了本文的概述。第2节介绍一些社交网络。第3节介绍了三种基本的信息传播模型。第4节中列出用于评估权限和影响的方法。第5节和第6节分别介绍了影响最大化和信息源检测的解决方案。最后,在第7节中总结了一些进一步研究的可能方向。

    下图是论文框架

    1 介绍

    由于社交网络服务的普及,人们越来越关注探索信息如何在这些网络中传播以及用户之间如何相互影响,这种应用具有广泛的应用,例如病毒式营销,重新发布预测和社交推荐。 因此,在本文中,我们回顾了社交网络中信息扩散分析的最新进展及其应用。 具体来说,我们首先阐明几种流行的模型来描述社交网络中的信息传播过程,这可以实现三种实际应用,即影响评估,影响最大化和信息源检测。 然后,我们讨论了如何基于网络结构评估权限和影响。 之后,分别详细讨论影响最大化和信息源检测的当前解决方案。 最后,列出了一些可能的信息扩散分析研究方向,以供进一步研究。

    这些社交网络具有开放性(即每个人都可以加入并与外界保持联系),交互作用(即用户可以通过回覆或重新发布来与朋友就电影或事故进行互动)的特征,以及 及时性(即用户可以随时更新状态消息)

    口碑效应:用户看到有趣的内容后,就可以将这些内容转发或转发给他们的朋友。 如果他们的朋友也喜欢这些内容,则可以进一步与他们自己的朋友分享这些内容,从而导致信息在网络中传播

    信息如何通过网络传播通常是未知的。 了解大量信息背后的传播机制对于广泛的应用非常重要,例如病毒式营销,社会行为预测,社会推荐和社区检测。这个问题吸引了来自流行病学,计算机科学和社会学等各个领域的研究人员。 他们提出了各种信息扩散模型来描述和模拟此过程,例如独立级联(IC)模型,线性阈值(LT)模型和流行病模型。大多数模型具有传染性,并假定信息开始从源(或种子)节点集中传播,其他节点只能从其邻居访问信息。

    发现的传播模型已被应用于许多实际应用中。 例如,首先,通过评估用户的影响力,我们可以确定有影响力的传播者,并找到专家。 其次,通过选择种子用户并解决所谓的影响最大化问题,我们可以最大化受影响用户的数量。 这对于通过口碑效应推广新产品,或放置传感器以快速检测城市供水网络中的污染物具有重要意义。 第三,在信息从一组源节点传播了一段时间之后,它将影响更多的节点。 我们可以根据这些观察到的受影响节点来推断源节点,这称为信息源检测。 它可以帮助防止流行病的爆发,并追踪社交网络中的谣言来源。

    2.准备工作

    微博网络:

    引文网络:

    协作网络:

    电子邮件网络:

    不同种类的信息可以在社交网络中传播,例如创新,对特定事件的看法。当节点采用此类信息,则会受到影响,受影响的节点将进一步将该信息传播到其邻居,即口碑效应,这将导致信息在网络中扩散。因此,除了具体说明之外,每个节点都具有两个状态:活动和非活动。例如,在Twitter中,重新发布有趣推文的用户处于活动状态,而其他用户则处于非活动状态。

    有许多网站提供开放的社交网络数据集进行研究。 在这里,我们列出其中一些以方便参考。

    Stanford large network dataset collection。 它是从数以万计的节点和边缘到数以千万计的节点和边缘的50多个大型网络数据集的集合,包括社交网络,Web图形,道路网络,Internet网络,引用网络,协作网络和通信网络 。

    Aminer6。 它提供了用于社交网络分析的外部数据集的存储库,包括微博网络,Patentminer.org的专利数据集,知识链接数据集,移动数据集和其他在线社交网络。

    Social computing data repository。 它托管来自许多不同社交媒体站点的数据集,其中大多数具有博客功能,例如BlogCatalog,Twitter,MyBlogLog,Digg,StumbleUpon,del.icio.us,MySpace,LiveJournal,非官方Apple Weblog(TUAW),Reddit 等

    Koblenz Network Collection (KONECT)。 是一个收集大型网络数据集以进行网络科学及相关领域研究的项目。 它包括数百个各种类型的网络数据集,包括有向,无向,两方,加权,未加权,有符号和评级网络。

    3 信息传播模型

    许多研究者从各个领域研究信息在网络中的传播过程,它们大多具有传染性并且通常遵循以下两个原则:

    1)每条信息的扩散都始于几个源节点。

    2)每个传播者只能从其邻居那里访问该信息。

    所有信息传播模型都与规则2一致,但是以不同的方式实现规则2。它们可以分为两类:渐进模型(progressive models),其中节点可以从非活动状态切换为活动状态,但不能在另一个方向上进行切换; 非渐进模型(progressive models),其中节点可以在两个方向进行转换,并允许多次。在下一部分中,我们将介绍三种基本的信息传播模型,即独立级联(IC)模型,线性阈值(LT)模型和流行模型,这些模型已被广泛使用,并且对于个人影响力评估,影响力最大化等至关重要。

    3.1 独立级联模型(IC)

    它假定信息从遵循规则1的一组活动种子节点$A_{0}$开始。对于病毒式营销,$A_{0}$是拥有折扣并愿意在其朋友中促销产品的一群用户。在该模型中,每个活动节点无法切换回非活动状态。随着时间的流逝,非活动节点可以从活动节点接收信息。在时刻t,$A_{t}$是一组处于活动状态的节点,对于$A_{t}$中的一个节点u,它只有一次机会以概率$w_{uv}$去影响非活动状态的邻居节点v。如果节点v成功被激活为活动状态,节点v将在下一个时刻t+1时以相同的方式去影响其他节点;如果节点v有不止一个处于活动状态的邻居节点,那么这些邻居节点对节点v的影响是相互独立的,这解释了独立级联模型是如何遵循规则2的。这个过程将一直进行,直到没有更多的节点被激活为止。

    独立级联模型是渐进随机的,所以最终处于活动状态的节点集合$A_{infty }$可能会随活动种子节点的选择不同而不同。

    3.2 线性阈值模型(LT)

    假设每个节点v都有一个特定的阈值$ heta _{v}$,该阈值从间隔[0,1] 中均匀采样,且$sum _{uin V}w_{uv}leq 1$。

    同样假定信息从遵循规则1的一组活动种子节点$A_{0}$开始,它的传播过程是以离散的步骤进行的。在第t步,上一步中处于活动状态的节点将保持活动状态,对于非活动节点v,如果下式成立,则被激活(1):

    $sum _{uin N_{in}(v))}w_{uv}geq heta _{v}$

    这个过程也将一直进行,直到没有更多的节点被激活为止。我们可以看到不活动的节点变为活动状态的概率随着其更多邻居变得活动而单调增加。而且,v的阈值可以视为v的邻居的加权分数。

    LT和IC的区别在于:LT允许活动节点多次影响非活动节点,而IC只有一次机会;LT让父节点对子节点的作用是加权的,而在IC中作用是独立的。

    3.3 传染病模型

    一些研究人员采用流行病模型来模拟网络中节点的感染和恢复过程,最初是在流行病学中描述疾病如何在人群中传播。同上,假定信息/传染病从遵循规则1的一组活动种子节点$A_{0}$开始。

    最简单的是susceptible-infected(SI)模型,它假定每个节点都有两种可能的状态:易感(susceptible)和感染(infected)。 当节点处于易感状态时,它可能会被信息感染。一旦节点u受感染,那么它将永远保持感染的状态,并且以它只有一次机会以概率$w_{uv}$去影响易感状态的邻居节点v,这种传播过程是独立的。

    susceptible-infected-susceptible (SIS)模型和SI类似,不同的是它认为感染的节点u将以概率$gamma _{u}$回到易感状态。
    Susceptible-infected-recovered (SIR)模型与SI大体相同,但是它假设节点有三种状态:易感,感染和康复。它认为感染的节点u将以概率$gamma _{u}$恢复健康并对疾病免疫,这意味着节点u从此不会再感染,其他部分与SI相同。
    recovered-susceptible (SIRS)扩展了SIR模型,它假设感染的节点u将以概率$gamma _{u}$恢复健康后,还会以概率$lambda _{u}$再一次变为易感状态。

    4 权威和影响力评估

    权威(authority)和影响力(influence)评估,对识别有影响力的传播者(influential spreader identification)和发现专家(expert finding)很重要。乍一看,用户的影响力和权限似乎有所不同,因为“影响力”是通过外部链接(例如,说服他们购买产品)来衡量其对他人的影响,而“权限”是得到其追随者的认可。但是,有些作品著作意识到它们之间有着密切的关系,因为一个人通过影响他人而获得了权威。

    4.1 权威评估

    本节介绍利用网络结构(基于中心性和PageRank)来解决权威评估问题。

    4.1.1 基于中心性

    计算一个节点的中心性,其值越大就意味着节点的影响力越大。

    方法一:最简单的方法是用度计算,即节点的链接数。对于有向图,要区分入度(indegree)和出度(outdegree),入度是衡量节点的合群性,出度衡量节点作为信息发送者的重要性,也就是说,入度越大,说明节点和其他节点关系更近;出度越大,说明该节点可以影响更多的节点。对于度计算方法,它认为连接更多的节点更有影响力。

    方法二:实际上,节点的影响应由其邻居确定。特征向量中心性提供了另一种方法来测量个体的影响力。

    A是一个连接矩阵,若存在从节点u到节点v的连接,则元素$a_{uv}=1$,否则为0。u的特征向量中心由下式确定(2):

    $c_{e}left ( u ight )=frac{1}{lambda }sum _{vin V}a_{v,u}c_{e}left ( v ight )$

    方法三:计算节点之间的距离,有三:closeness中心性$c_{c}left ( u ight )$和betweenness中心性($c_{b}left ( u ight )$),Jordan中心性($c_{j}left ( u ight )$)

    紧密度中心性定义为u与其他节点之间的平均最短距离的倒数(4):

    $c_{c}left ( u ight )=frac{1}{sum _{vin V}dleft ( u,v ight )}$

    其中距离$dleft ( u,v ight )$由由沿路径的拓扑距离或权重计算。

    中间性中心度计算通过u的最短路径的数量(5):

    $c_{b}left ( u ight )=sum _{s eq u eq tin V}frac{sigma _{st}left ( u ight )}{sigma _{st}}$

    其中,$sigma _{st}$表示s和t之间最短路径的数量;$sigma _{st}left ( u ight )$表示s和t之间通过u的最短路径的数量。

    Jordan中心性定义为u与其他节点之间的最大距离的倒数(6):

    $c_{j}left ( u ight )=frac{1}{maxleft { dleft ( u,v ight )mid vin V ight }}$

    请注意,亲密性和Jordan中心性假定权威节点可以将信息尽快发送给其他节点,而中间性中心性则表明节点在作为枢纽连接其他节点方面的重要性。

    4.1.2 PageRank

    PageRank 最初用于评估网页的权威,并且是Google搜索引擎的基石。 它也是上述正常特征向量中心性的扩展。

    PageRank值为:$x=egin{pmatrix}
    xleft ( v_{1} ight ) & xleft ( v_{2} ight ) & ... & xleft ( v_{n} ight )
    end{pmatrix}^{T}$

    在网络中可被定义如下(7):

    $x=dWx+frac{1-d}{n}e$

    其中,d是一个衰减因子,e为全为1的列向量,n是节点数。

    random surfer模型可以用来解释PageRank,假定一个用户从一个网页出发,任意点击链接,直到最终停留在一个令用户喜爱的页面。当d=1,x成了在过度矩阵W下的平稳分布,W刻画可任意点击这个过程。但是在实际情况下,许多页面没有出站链接或处于一小段网页中,因此用户将被卡住。 为了克服这个问题,设定用户可以随机打开新页面并继续冲浪。 (7)右边的第二项说明了此策略:当用户被卡住,他将点击概率为1/n的页面。
    Haveliwala 对上式考虑了更多的个性化,提出了一个对主题敏感的PageRank。即将标准向量e替换为非标准列向量q,如果是基于某个特定第i个主题,那么q的第i个位置上元素为1,其余为0。Kleinberg设计了一个近似的算法HITS,它同时计算子图中的权威权重和集线器权重。此外,wen等人提出了TwitterRank(PageRank的扩展)来衡量用户在Twitter中的影响力,它考虑了用户之间的主题相似性和链接结构来以衡量影响力。
    由于其简单性和有效性,PageRank已被用于完成许多任务,例如有影响力的传播者的识别和社交网络中的链接预测,项目推荐和专家发现。

    4.2 影响力评估

    人的影响力可以被认定为影响他人的能力。Kempe提出集合A中某个节点的影响力为在影响过程结束后被激活节点的期望数量,A是最初的处于活动状态下的节点的集合。

    4.2.1 蒙特卡洛模拟

    Kempe提出用蒙特卡洛方法来估计IC模型或LC模型中的影响力。具体步骤如下:

    在IC或LC模型下,我们在网络中从集合A出发传播一组信息,并记录传播过程结束后被激活节点的数量,那么A的影响力可以由下式计算(8):

    $fleft ( A ight )=frac{1}{R}sum _{vin V}delta left ( v ight )$

    其中R是蒙特卡洛模拟次数,$delta left ( v ight )$是一个指示符,如果指示符为1,证明节点v被激活,否则为0;每一次蒙特卡洛模拟都是相互独立的,所以确保了只要R足够大,(8)就会收敛到一个真实值。但是对于大型网络来说这个方法相当耗时,所以作者把它作为计算影响力扩散的未解决问题。

    4.2.2 近似方法

    chen在研究中发现:给定节点集合A,计算其影响力的时间复杂度是多项式(p-hard),因此,一些研究人员尝试设计近似方法来估计影响的传播。Aggarwal等人 提出了一种方法SteadyState Spread,以确定给定起始节点A的预期信息扩散。他们首次计算了平稳分布$pi left ( i ight )$,其中节点i通过求解以下非线性方程组来吸收信息(9):

    $pi left ( i ight )=egin{cases}
    1 & ext{ if } i in A\
    1-prod _{jin V}left ( 1-w_{ji}pi left ( j ight ) ight ) & ext{ if } otherwise
    end{cases}$

    这意味着为了让节点i吸收信息,它必须从其至少一个邻居接收信息。 然后,所有节点的稳态同化概率之和可以达到所需的影响范围。

    Yang等人提出,(9)的适用范围不广,当网络存在缺陷的时候不适用,并且非线性方程组不好求解。他们举出一个观察现象,说明影响传播概率( influence propagation probabilities)在现实世界中通常都很小。然后,他们定义线性系统表示稳态概率近似值(10):

    $pi left ( i ight )=sum _{jin V}w_{ji}pi left ( j ight )$

    上式与(2)式很相似,这表明影响力和权威应该具有潜在的关系。

     但是,在许多情况下,发生扩散的网络实际上是隐性的,甚至是未知的。例如,在病毒式营销环境中,我们仅观察到人们在购买产品时并未明确知道谁是导致购买的影响者。因此,Yang和Leskovec 研究了隐式网络中建模信息的扩散。 他们专注于对节点对通过(隐式)网络的扩散速率随时间的全局影响进行建模。每个节点u都有一个特定的非负影响函数$I_{u}left ( l ight )$,可以将其视为节点u接收到信息后,l个时间单位中节点u的后续提及次数。$Vleft ( t ight )$用来表示在时刻t提及信息的节点数,具体公式如下(11):

    $Vleft ( t ight )=sum _{uin Aleft ( t ight )}I_{u}left ( t-t_{u} ight )$

    其中$Aleft ( t ight )$表示在时间t之前已激活的一组已经激活的节点。他们提出了一种非参数方法来实现影响函数。

    4.2.3 先验PageRank

    Xiang等人从影响传播的角度进一步理解了PageRank,以探索权威与影响之间的关系。 具体来说,他们首先提出了线性社会影响力计算模型,如下:

    定义1:定义从节点i到节点j的影响为$f_{i ightarrow j}$,有:

    (12):$f_{i ightarrow i}=alpha _{i}$,$alpha _{i}> 0$

    (13):$f_{i ightarrow j}=frac{1}{1+lambda _{j}}sum _{1leq kleq n}w_{kj}f_{i ightarrow k}$,$j eq i$

    其中$alpha _{i}$是先验概率值,$lambda _{j}$是一个大于0的阻尼因子。等式(13)表明,从节点i到j的影响,与i对j的邻居的影响的线性组合成比例。如果节点i想要影响节点j,那么节点i先要经过节点k,并且节点k以一定的概率影响节点j,$alpha _{i}$可以认为是传播信息过程中节点i的先验概率。$lambda _{j}$指示节点j将阻止多少影响。

    作者注意到,PageRank实际上是定义1中具有适当优先级的线性社会影响模型的特例。这表明在社会影响力相关应用程序中以PageRank为基准是合理的。

    4.2.4 独立的社会影响

    实际上,不同节点的影响力有可能重叠。 例如,在社交网络中,用户u和用户v是相邻的,并且用户u是最有影响力的用户之一。 若u成功影响v,则v可以在u的帮助下影响更多其他人,因此观察到的v的影响力远大于其实际值。 liu等人尝试根据定义1中的线性模型计算独立的社会影响力(independent social influence)。他们引入了以下独立社会影响力的定义:

    定义2:$iin S$,定义从节点i到节点j的影响力为$f_{i ightarrow j}^{Ssetminus i}$,节点j独立于S集合中的任何一个节点

    (14):$f_{i ightarrow i}^{Ssetminus i}=1$

    (15):$f_{i ightarrow j}^{Ssetminus i}=0,jin Ssetminus i$

    (16):$f_{i ightarrow j}^{Ssetminus i}=dsum _{1leq kleq n}w_{kj}f_{i ightarrow k},j otin S$

     其中d是一个阻尼因子。当从扩散中“删除” S中的其他节点时,$f_{i ightarrow j}^{Ssetminus i}$本质上是网络中节点i的影响力。

    因此,从S中“已删除”的节点将停止从节点i接收和转发信息。作者发现所提出的独立影响具有两个有趣的特性:1)一组节点的影响实际上是每个节点独立影响的总和。 2)某人的独立影响有一个上限。 基于这两个属性,演示了两个实际应用:根据种子的独立影响对种子进行排名,以找出每个选定种子的贡献,并从种子节点S中快速找到前K个有影响力的节点。

    4.2.5 Group PageRank

    定义3:定义a节点集合S到节点j的影响力为$f_{S ightarrow j}$

    (17):$f_{S ightarrow j}=0,jin S$

    (18):$f_{S ightarrow j}=dsum _{1leq kleq n}w_{kj}f_{S ightarrow k},j otin S$

    他们发现从集合S到集合T的影响力$f_{S ightarrow T}=sum _{iin T}f_{S ightarrow i}$有一个上限GPR(S,T),称为Group PageRank:

    (19):$f_{S ightarrow T}leq frac{left | T ight |}{1-d}sum _{iin S}left ( 1-dsum_{kin S}t_{ki} ight )fPR_{i}= GPRleft ( S,T ight )$

    其中,$fPR_{i}$是节点i的PageRank value,可由式(7)计算。很难获得准确的影响值,因此提出了许多近似方法来简化计算过程并提高效率。

    5 影响力最大化(IM)

    如何基于信息扩散模型和影响力评估来解决影响力最大化问题。该问题选择一组种子节点,以在扩散过程结束时,能够最大化活动节点的预期数量。理查森(Richardson)和多明戈斯(Domingoes)在为病毒式营销开发知识共享站点时首先注意到了这一点。 然后,Kempe等人[4]将其公式化为以下离散优化问题。

    问题 1 (Influence manimization):

    在社交网络G(V,E)中,选择一组大小为K的种子节点集合S:$S=argmax_{Ssubset V}fleft ( S ight )$,其中$fleft ( S ight )$为集合S的影响力。

    有两种直观的解决方案:一种是枚举并选择影响范围最大的子集。 这将导致组合爆炸,不适用于大型网络。 另一个是选择影响力最大的前K个节点,但不同的个体影响可能会相互重叠,因此它们的集体影响力不是最大的。 Kempe等人[4] 他说,在独立级联(IC)模型和线性阈值(LT)模型下,影响最大化是NP-hard的。 因此,由于其广泛的应用,许多研究者都在关注这个问题,并提出了各种近似方法来加快求解速度,可以将其分为四类:贪婪,启发式,反向采样和其他算法。

    5.1 贪婪算法

    Kempe等人注意到在IC和LT模型下的影响扩散函数f,是单调函数和次模函数。

    单调和次模:

    设Sapp为一组大小k,通过一次选择一个元素获得,从而提供函数值的最大边际增加。 令Sopt为在所有k个元素集上最大化f值的最优集。 Nemhauser等人已经表明上式(20)

    算法1:贪心算法框架

    该算法每一次将一个能够使得集合S的边际影响力最大的节点u添加到集合S中,直到S中由K个节点为止。

     边际影响:

     这个算法证明了只要集合函数(set function)f有单调和次模性,它就可以以(1-1/e)的比率来近似影响力。

    贪心算法的瓶颈在于如何计算种子集合的影响力f,采用蒙特卡洛需要多次计算,因此该种方法消耗时间长不适用于大型网络。

    5.1.1 lazy evaluation

    Leskovec等人利用次模量来避免在每次迭代中对边际影响增益进行不必要的重新计算,并开发了一种有效的算法,即具有成本效益的惰性前向(Cost-effective lazy forward)(CELF)选择。 基于收益递减特性,将节点越早选择到种子集中,它可以实现的边际影响增益就越大。

    (21):$Delta _{u}S_{k}geq Delta _{u}S_{k+1}$

    算法2:

    该算法的基于的事实为:将每个待添加节点的边际影响增益添加至Q中,并且按增益大小倒叙排列。对于空集S,首先添加增益最大的节点u,即Q中的第一个元素,添加至K后从Q中删除第一个元素。然后对于Q中剩余其他节点,首先计算Q新第一个节点的边际影响值,根据边际影响值对这个新第一个节点在Q中重新排序,若它还是第一个节点,则添加它至K中,再从Q中删除;若它再次排序后不再是第一个节点,那么就寻找Q中此时的第一个节点继续计算新边际效益,排列,比较。也就是说,这种算法,不需要每一次都计算所有节点的最大边际影响增益,它比算法1速度快了700倍。

    5.2 启发式算法

    尽管上述方法利用惰性评估来加快贪婪算法的速度,但它们在大规模网络上的运行时间仍然很高,因此,许多研究人员开始开发启发式算法,以根据扩散模型的特定的属性进一步提高影响力传播评估的效率。

    5.2.1 最短路径(SPM)

    Kimura和Saito提出了两种模型,即最短路径模型(SPM)和最短路径1模型(SP1M)以简化IC模型, 当通过链接的传播概率较小时,这两种模型可以有效地获得影响最大化问题的良好近似解。 在SPM中,每个节点v仅在步骤$t= dleft ( S,v ight )$有机会变为活动状态,其中$dleft ( S,v ight )$是从S到v的拓扑距离,这意味着每个节点仅通过距初始活动集S的最短路径才可能得到激活。SPM是IC模型的一种特殊类型,其中只有最有效的信息才能传播。而在SP1M中,每个节点v仅在步骤$t= dleft ( S,v ight )$和步骤$t= dleft ( S,v ight )+1$时有机会变为活动状态。

    如果这两种模型采用贪婪算法可以保证以比率(1-1/e)的概率得到影响值。但是缺点是他们忽略用户之间的影响概率,仅考虑拓扑结构。

    5.2.2 DegreeDiscount启发式

    如果节点v的邻居节点存在节点u,u被选为初始活跃节点,由于两者的影响力存在重叠,则需要对节点v的度数进行度量折扣。

    Chen等选择种子节点时,探索了所选种子节点对其余节点的影响,他们采用节点度(degree)来估计其影响,并提出了两度折扣启发法来减小这种影响。
    1)SingleDiscount:新选择的种子的每个邻居将其度数减一。 这种启发式方法可以应用于所有信息传播模型。
    2)DegreeDiscountIC:对于传播概率为p的IC模型,这是一种更准确的度数折扣启发法,在选择v添加进种子集合时,期望的活动节点数为:

    (22):$1+left ( d_{v}-2t_{v}-left ( d_{v}-t_{v} ight )t_{v}p+oleft ( t_{v} ight ) ight )p$

     $d_{v}$是v的度,$t_{v}$是v的邻居节点数量减去已处于激活状态的邻居节点,$t_{v}$越大,$d_{v}$的折扣就越大。

    5.2.3 最大影响路径(MIP)

    Chen等通过考虑最大影响路径(MIP)而不是最短路径来扩展SPM和SP1M,以近似社交网络中的实际预期影响。其主要思想是使用每个节点的局部树状结构来近似影响传播。

    最大影响路径:节点u和v之间的最大影响路径是从u到v具有最大传播概率的路径。

    MIA和PMIA:他们首先通过Dijkstra最短路径算法计算网络中每一对节点之间的最大影响路径,设定一个阈值,如果传播概率小于阈值,那么就忽略这条路径,这种做法可以有效地将影响限制在局部区域。 然后他们将在每个节点的开始或结束的最大影响路径聚集到树状结构中,代表每个节点的局部影响区域,设定不同的阈值会得到不同的局部影响的大小,这种方法又叫maximum influence arborescence (MIA) 。这种方法因为阈值是可调的,所以可以在效率(运行时间)和有效性(影响力)之间寻求可调的平衡。当图比较稀疏并且边缘上的传播概率较小时,为了提高效率,提出了MIA的变体,称为前缀MIA(prefix excluding MIA)(PMIA),并进行批量更新。PMIA在选择下一个种子时,每个待选节点都要有一条通向S中的节点v的路径,重新计算节点v的最大影响路径,而且这条路径不能经过任何除了v以外的种子节点。最后的结果是,每个已选择的种子节点,都会有一条有序路径,使得种子节点与非种子节点连接,这些路径,不会经过S中排在前面的种子节点而到达非种子节点。MIA和PMIA已经被证明是次模和单调的,所以可以使用贪心算法,结果会以比率(1-1/e)近似估计这个问题。在多个现实世界和综合网络上进行的广泛仿真结果表明,他们的算法是当时影响力最大化问题的最佳可扩展解决方案

    IRIE:后期基于PMIA许多研究者提出了许多算法,此处略。在选择种子节点的每一轮中,贪心算法均使用Monte Carlo模拟,而PMIA使用更有效的基于局部树状结构的启发式方法来估计每个可能候选对象的影响范围。但是对于需要估算每个节点影响范围的第一轮来说,这特别慢。因此,Jung等人[22] 提出了一种从信念传播方法派生的新颖的全局影响力排序(IR)方法,该方法使用少量迭代来生成节点的全局影响力排序,然后选择排名最高的节点作为第一种子。为了避免重叠影响,他们将IR与简单的影响估计(IE)方法集成在一起,以便在选择一个种子之后,他们可以估计该种子对网络中其他节点的额外影响,然后使用结果进行调整下一轮影响力排名计算。IE比直接估计许多候选种子的边际影响增益要快得多,当将IR和IE结合在一起时,我们获得了快速的IRIE算法。

    LDAG和SIMPATH是为LT模型专用的。

    LDAG:利用以下事实,即可以在线性时间内完成有向无环图(DAG)中的计算影响扩散。 它围绕网络中的每个节点v构造一个本地DAG,并将影响限制在本地DAG结构内。 这使得影响力的计算在小型DAG上易于处理且快速。 然后,作者将贪心算法与快速方案结合起来,该方案可更新每个节点的增量影响范围。
    SIMPATH:可以在LT模型下,在适当的子图上,将一组节点的影响计算为该集中每个节点的影响之和。 它可以像CELF这样的惰性向前迭代地选择种子,而不是使用昂贵的MC模拟来估算传播,而是可以通过枚举从小范围内的种子节点开始的简单路径来计算它,而由于路径的概率随着时间的增加而迅速减小,因此大部分影响流会逐渐减少。

    通常,这些启发式算法通过特定扩散模型的属性对大型网络更有效,但是很少有标准IC和LT模型那样得到保证。

    5.3 Reverse sampling algorithms 反向采样算法

    最近,Borgs等人取得了理论上的突破,并启发了研究人员从完全不同的反向采样角度解决影响最大化问题,该方法具有近似保证,并且比上述启发式算法更有效。

    定义7(反向可达集合):对于图G中的边e,以概率$1-w_{e}$移除,得到图g。对于图g中为节点v设置的反向可达集合(RR)是g中可以达到v的节点集合,即,对于RR集合中的每个节点u,g中都有从u到v的直接路径。

    定义8(任意反向可达集合):是从RR中随机采样生成的。

    博格斯等人在IC模型下提出了一种反向影响抽样(RIS)方法。 它分两个步骤运行:
    1)从G生成一定数量的随机RR集。
    2)使用标准贪婪算法解决最大覆盖问题,选择k个节点覆盖生成的最大RR集数量。

    它的主要思想是,如果一个节点u出现在大量的RR集中,那么在IC模型下它应该很有可能激活许多其他节点。u的影响力传播应该很大。RIS相比其他算法可以以更高的概率得到影响最大化的结果,但是,RIS的时间复杂度具有很大的隐含常数,因此其实际效率不能令人满意。

    Tang等借鉴了RIS的思想,并提出了两阶段影响最大化(TIM)算法:它首先计算在所有大小为k的节点集之间的最大预期影响分布的下界,然后使用该下界导出参数,然后从G中对随机RR集进行采样,并得出大小为k的节点集,这些节点涵盖了大量的RR集,例如RIS。

    TIM +通过添加一个中间步骤来改进TIM,该中间步骤改进为更严格的下限。

    5.4 其他算法

    1)首先,现在评估在整个网络上传播的影响力是很费时的,我们可以只在社区级别(community-level)处理它吗? 社区是节点的密集连接子集,仅与其余网络稀疏链接,就是一群相互之间紧密连接,但与其他子集距离较远的子集。 Wang等[77] 注意到了这个想法,并提出了一种基于社区的贪婪算法(CGA),用于遵循分而治之的原则来挖掘移动社交网络中的前K个有影响力的节点。具体地说,他们首先扩展了一种社区检测方法以使其能够划分社区,然后根据信息传播模型将网络连接到社区。他们提出了一种动态编程方法,以逐步选择要处理的社区。在社区内,我们可以采用任何现有算法来检测有影响力的节点,例如PageRank和CELF。

    2)其次,王等人注意到影响最大化找到了一些影响力节点,其影响力可以覆盖整个网络,这类似于选择一些信息行来重建矩阵。因此,他们从数据重建的角度提出了一种新颖的框架,称为影响力最大化数据重建(DRIM)。他们首先建造了一个影响矩阵,其每一行是一个节点对其他节点的影响。他们没有使用费时的蒙特卡洛模拟来估计影响范围,而是转向定义1中的线性社会影响模型,该模型为我们提供了每个节点的影响的封闭式解决方案。然后,他们选择信息量最大的k行来重构矩阵,并且它们对应的节点是可以最大程度地扩大影响范围的种子节点。实验结果表明,该框架至少与传统贪婪算法一样有效。但是,该框架没有性能保证,并且时间复杂度太高。

    3)江等提出了一种完全不同的基于模拟退火(SA)的方法来解决影响最大化问题。 模拟退火模拟了金属退火的过程,并优化了许多NP难题的解决方案。 随着迭代次数的增加,针对影响最大化问题的基于SA的算法将趋于最优。 SA可以摆脱局部最优,并且能够学习自动提高解决方案集的影响范围。 他们还设计了两种启发式方法来加速SA的收敛过程,并设计了一种计算影响力的新方法以加快所提出算法的速度。

    4)最后,用户的影响和网络结构会随着时间而动态变化,先前的工作仅在静态网络中完成。 Rodriguez和Schölkopf关注连续时间传播网络中的影响最大化。他们描述了连续的时间马尔可夫链如何使我们能够分析性地计算从种子节点集中开始的扩散过程达到的平均节点总数。他们还表明,在连续时间影响最大​​化问题中选择一组最具影响力的源节点是NP的,并开发了一种具有可证明的近最佳性能的有效近似算法。Wang 研究了动态社交网络的增量影响最大化,他们为线性阈值模型设计了一种增量算法,即动态影响最大化(DIM)。它包括两个阶段:初始播种和种子更新。他们还为种子更新阶段提出了两种修剪策略,以进一步减少运行时间。而Wang等试图跟踪动态网络中的影响节点。他们将动态网络建模为边缘权重更新的流,其中包含许多实际情况,例如特殊情况,例如边缘和节点的插入,删除以及不断发展的加权图。他们的关键思想是使用基于轮询的方法并维护随机RR集的样本,以便我们可以用可证明的质量保证来近似节点的影响。

    5.5 影响最大化的变体

    首先,尝试概括影响力最大化问题或对问题1中的原始表述添加更多约束。例如,预算影响力最大化(budgeted influence maximization)(BIM),识别一小部分有影响力的人,这些人可以在有限的预算内影响最大成员数。在这个问题的基础上后来提出了连续影响最大化(continuous influence maximization)(CIM)问题,假如正在通过一个社交网络推出一种新产品,在该社交网络中,我们可以获得网络中每个用户的与折扣相关的购买概率曲线,基于此,可以决定应向那些社交网络用户提供什么折扣,以便在预定预算下最大化购买量。CIM是影响力最大化(IM)和BIM的概括。此外,Aslay等人研究了激励性社会广告(incentivized social advertising)中的收益最大化问题(revenue maximization problem),它的目的是将广告分配给有影响力的用户,以实现其自身收益最大化的合理目标,他们考虑了广告病毒传播的倾向,并在影响用户的激励措施和参与成本之间仔细分配了每个广告商的货币预算。

    其次,营销人员通常将特定产品定位于特定的客户群。例如,一家化妆品公司希望其产品吸引更多的女性而不是男性。李将上面的公式描述为标记的影响最大化问题(labeled influence maximization problem),目的是找到一组种子节点以触发在标记的社交网络中对目标客户的影响最大扩散。标签信息在当前的社交网络中广泛可用,用户可以通过该社交网络描述他们的个人兴趣,大学毕业,家乡,年龄,技能等。Tang等同时考虑了影响力的大小和受影响人群的多样性,并将其表述为多样化的影响力最大化问题(diversified influence maximization problem)这可以减少营销活动的风险。此外,刘等人结合有针对性的营销与病毒式营销,研究了在目标受限的情况下最大化病毒营销中的信息意识的问题。

    第三,王等在研究网络中信息传播的覆盖范围时,考虑主动节点和通知节点都知道信息。他们提出了一个新问题,即信息覆盖率最大化,旨在最大化活动节点和通知节点的预期数量,并表明该问题在IC模型中是NP-hard和次模的。之后,他们进一步研究了活动最大化问题,该问题选择了一组种子用户,以最大化对一条新信息的预期兴奋总量,它不能用现有方法解决。在一个社交网络中,即使在相同的信息下,不同用户之间的兴奋也是不同的,他们的目的是在给定的预算下找到最佳的种子用户集合,并开始从种子用户传播信息,以收集最大的活动总和受影响用户之间的优势。

    最后,有时社交网络中传播的信息不止一种,例如有关竞争产品的不同信息。 He等集中讨论了竞争线性阈值(CLT)模型下的最大化最大化问题,该模型指出,一个实体将通过策略性地选择一些种子节点,来尝试通过其可能的传播来尽可能多地阻止其竞争实体的影响传播,他们扩展了LDAG [56],并设计了一种有效的算法,竞争性局部有向无环图(CLDAG)利用了CLT模型的特性来解决这个问题。此外,据推测,竞争者之一可以通过创建新的链接来增强其影响力。一个自然的问题是,当新链接的数量由于资源有限而受到限制时,如何添加这些链接,以使给定竞争对手对其他竞争对手的影响最大化(称为竞争力)。赵等人将其表述为复杂网络上的竞争力最大化问题。他们考虑了以下两种情况:最大化竞争对手的支持者数量,以及最大化正常代理商对竞争对手的总体支持程度。此外,许多人也关心自己的影响力,并希望增强影响力。因此,马等人考虑过通过推荐新链接来最大化目标个人影响力的个人影响力最大化问题。

     6 信息源检测

    当观察到一条信息在网络中扩散之后哪些节点处于活动状态时,我们是否可以推断出触发此观察到的扩散结果的源节点或种子节点? 例如,在网络上散布谣言之后,我们要查找谣言源节点停止其传播。 此问题称为信息源检测(information source detection),可以视为信息扩散的逆过程。应用例如流行病爆发的预防和社交网络中的谣言来源追踪。

     从$t_{0}$时刻到t时刻,网络G中会有很多节点被感染,$t_{0}$代表信息开始从未知节点集合$S^{*}$传播到网络G。假定像传染病模型一样,每个节点有三个状态:易感,感染和康复。$G_{I}$表示感染的子图,$G_{I}left ( V_{I},E_{I} ight )$由感染的节点$V_{I}$以及他们相互之间的边$E_{I}$组成。$Pleft ( G_{I}mid S ight )$代表当信息从S开始传播后,观测到$G_{I}$的概率。

    信息源检测的目的是根据观察到的节点状态和网络结构来识别启动扩散过程的源节点,这些节点可以正式定义如下:

    问题2:信息源检测就是,在t时刻观察到了受感染子图$G_{I}left ( V_{I},E_{I} ight )$,要去找到源节点$widehat{S}$,例如$widehat{S}=argmaxPleft ( G_{I}mid S ight )$,$t_{0}$是未知的时刻,从此时开始信息在网络中传播。

    上图中,经常只能看到某个时刻网络的状态,并获得某些节点的状态,这只是整个网络的一部分扩散过程。只知道哪些节点被感染,但无法区分表明谁感染谁以及何时感染的传播路径。实际的信息传播规律是未知的,无法由第3节中的模型全面描述。信息传播是高度动态的,并且在从不同来源发起时具有多种模式。现实世界中通常有多个源节点,而数量未知。信息开始传播的时戳以及持续的时间也不可用。
    Shah和Zaman是最早考虑这个问题的人。此后,针对不同情况进行了很多努力,根据观察到的结点状态可分为三类:完全观察(complete observation),部分观察(partial observation),传感器观察(sensor observation)。图5示出了每个类别的观察到的扩散结果的三个示例。

    在下一部分中,简要描述相应的解决方案,以检测近年来观察到的三类源节点。

     6.1 全面观察检测

    具有完整观察结果的检测方法。当观察信息传播后的时间t时,可获得整个网络中所有节点的完整状态。可以确定哪些节点已被感染,哪些已恢复或仍然易受感染。

    6.1.1 谣言中心

    Shah和Zaman假设只有一个源节点,并使用SIR模型的一种SI模型描述了病毒在网络中的传播。然后他们为病毒源构造了以下最大似然估计器:

    $widehat{v}=argmax_{vin v_{I}}Pleft ( G_{I}mid v^{*}=v ight )$

    其中,$widehat{v}$是检测到的源节点,$v^{*}$是真实的源节点。他们表明,在规则树中,上述估算器等于选择一个具有最大谣言中心度(rumor centrality)的节点,谣言中心度$Rleft ( v,G_{I} ight )$是基于树的节点的允许序列,始于节点v,允许的排列是$v_{I}$中受网络结构设置的排序约束的节点的排列。

    检测到的节点$widehat{v}$称为谣言中心。

    他们发现节点v的谣言中心度$Rleft ( v,G_{I} ight )$对树有一个简单的表达:

    $T^{v}_{u}$表示源节点是v时,以节点u为根节点的子树的节点数量。他们还设计了一种有效的消息传递算法,以计算每个节点的谣言中心度,时间复杂度为$Oleft ( V_{I} ight )$.

    他们发现允许序列也是线性的偏序集(poset),计算其数量属于一般图中完成的复杂度类别#P ,为了将这种算法扩展到一般图中,他们假定病毒传播从节点v出发,沿着以v为根节点的广义搜索树breadth first search (BFS)$T_{bfs}left ( v ight )$,并以最大的谣言中心度$Rleft ( v,T_{bfs}left ( v ight ) ight )$检测出谣言中心。此外,他们证明了谣言中心等于树上的距离中心。 而且,在生长速度快于直线的树上,(23)中的估计量总是具有非平凡的检测能力概率,而在像线一样长的树上,随着网络的增长,检测概率将变为0。

     他们的方法在某些方面有一些局限性:首先,它仅适用于只有一个源节点的情况。 其次,它仅考虑受感染的子图,而忽略了其他未感染的节点,这对于检测源也很重要。 第三,谣言中心性假设所有允许排列的概率对于一般图而言都是相等的。

    该方法的改进方法略。

    6.1.2 特征向量中心

    例如,Fioriti和Chinnici使用频谱技术预测了暴发的多种来源。 他们建议使用节点动态重要性( node dynamical importance )(DI)来评估网络中最重要的节点,该节点动态重要性是节点移除后邻接矩阵最大特征值的减少值。 他们指出,删除节点后的大量减少意味着该节点与感染网络的老化有关。节点v的动态重要性(即动态年龄)由下式定义:

    分子表示节点移除后最大特征值的减少值,检测到的源节点就是$DI_{v}$最大的节点。结果表明,如果图足够近似树,则光谱技术可以识别源节点。

     6.1.3 采样方法

    观察每个节点的受感染子图的可能性,它们专注于随机扩散模型,例如独立级联(IC)模型和线性阈值(LT)模型。翟(Zhai)等人设计了一个马尔可夫链蒙特卡罗(MCMC)算法,他们将检测化为问题2的最大似然估计的源推断问题,受感染子图的生成对应于特定分布G。由于计算似然的确切值是#P-hard,因此他们建议使用Metropolis算法对马尔可夫链中的$G_{I}$进行采样。当MCMC链收敛时,平稳分布将为$G_{I}$,此后,他们对被感染的子图进行计数,,并选择一个最大值为源节点的节点。但是,这种方法在受感染的节点数很大时非常耗时,并且很难判断MCMC的收敛性以停止采样。 Zhang et al。[99]进一步扩展了该方法在LT模型下的源检测。

    此外,阮氏通过搜索种子集S提出了一种新的方法来识别多个感染源,基于采样的感染源识别(SISI),以在无需事先知道源节点数量的情况下识别感染源。SISI包含两个关键组成部分:有效的截断反向感染抽样(TRIS),可以高精度和机密性地计算目标,并将研究的问题创新地转化为亚模块成本覆盖问题 提供具有性能保证的高质量解决方案。SISI适用于大多数渐进式扩散模型,并为一般图中的问题提供了可证明的保证。

    6.1.4 扩散核(diffusion kernel)

    扩散内核可以表示给定网络中的扩散过程,但是计算该内核通常在计算上具有挑战性。 Feizi等人提出了一种基于路径的网络扩散核,该核考虑了网络中节点对之间的边沿不相交的最短路径,并且可以有效地计算出均质和异质连续时间扩散模型,并使用该网络扩散核解决了逆扩散问题(inverse diffusion problem), 命名网络注入(network infusion)(NI)同时具有最大可能性和最小错误。 他们使用候选源节点的先验概率和无先验概率,将此框架应用于单源扩散和多源扩散以及单快照(single-snapshot )和多快照观察。

    6.2 局部观察检测

    在某些情况下,我们只能在给定的时间t观察部分节点的状态。 姜等[94] 总结为四个案例。
    1)节点如果被感染,则很有可能显示其状态。
    2)我们可以识别所有感染的节点,但不能区分易感或已恢复的节点,因为某些感染的节点可能以SIR模型中的概率从疾病中恢复过来。
    3)仅观察到在时间t被感染的节点,而在时间t之前被感染的其他节点的状态丢失。 例如,图5中的环中观察到的黑色节点在时间t被感染。
    4)由于财务和人力资源等方面的限制,我们仅在时间t观察部分节点,请注意,某些观察到的节点可能在时间t之前被感染。
    在下一部分中,我们将介绍一些针对不同情况的典型解决方案

    6.2.1 Jordan中心

    这种方法选择Jordan中心作为检测到的源节点,该节点具有在(6)中定义的最大Jordan中心度。 这意味着Jordan中心是一个最小化与其他节点的最大距离的节点。 朱研究了在流行的敏感感染恢复(SIR)模型下的源头检测问题。 给定网络快照,我们知道所有受感染的节点,但无法区分易受感染的节点和已恢复的节点。 假定网络是无向图,并且网络中的每个节点都具有三种可能的状态:易受感染(S),受感染(I)和已恢复(R)。 状态S的节点可以被感染并更改为状态I,状态I的节点可以恢复并更改为状态R。

    他们用最大似然估计(MLE)形式化了这个问题。为了解决该问题,我们需要考虑所有可能的感染样本路径,这对于初始感染时间未知的大规模网络是不可能的。为了克服这个困难,他们建议找到最有可能导致观察到的快照的样本路径,并将与该样本路径关联的第一个节点视为信息源。他们证明了对于无限树,估计器是一个节点,该节点使到受感染节点的最大距离(即约旦中心)最小化。提出了一种反向感染算法以在一般图中找到这种估计量。在该算法中,每个受感染的节点在网络中广播其身份,然后最先收集所有受感染节点的身份的节点将自己声明为信息源。根据到受感染节点的距离之和断开连接。朱和英[105]进一步扩展了这种方法,在稀疏观测的异构SIR模型下进行源检测。他们假设报告了感染节点的一小部分。异构SIR模型允许沿边缘的不同感染概率以及在不同节点的不同恢复概率。此外,Luo 探索了在SI和SIS模型下基于样本路径的源检测方法。他们获得了与SIR模型相同的结论:检测到的源是约旦中心。但是,约旦中心法是为树状网络设计的,这与真实网络有很大不同。

    6.2.2 消息传递方法

    基于信息传递,基于SIR模型用感染和未感染节点探索源节点,他们介绍了一种有效的基于动态消息传递(DMP)方程的算法

    分别表示节点i在k或k+1时刻变成状态SIR的边际概率。

    theta表示在t=k+1时刻传染还未从k到i的概率,也是节点i的恢复概率

    6.2.3 重建传播

    恢复传播路径或者恢复状态

    6.3 传感器检测

    在网络中选择一些节点作为传感器监视信息的传播。通过观察这些节点的状态,状态转换时间(即,当它们被感染时)和感染方向(即,信息来自哪个相邻节点)来了解信息传播。 如何使用这些节点检测信息源?

    6.3.1 延迟距离估算器Delay distance estimator

    一般传播树的估计

    边的传播时间独立,服从高斯分布;信息传播遵循连续的SI模型,受感染的节点将在传播延迟中将信息重新传输到其所有其他邻居。根据信息到达传感器的距离先确定一个唯一的子树$T_{a}$。对于给定的传感器节点$o_{1}$,计算它和其他子树中传感器节点的观测延迟d。然后假定任意一个节点$sin T$为源节点,计算从s到$o_{k}$的传播时间,记为$Pleft ( s,o_{k} ight )$,针对每个传感器节点,由下式计算相对于$o_{1}$的确定性延迟:

    即由s到$o_{k}$的传播时间减去到$o_{1}$的传播时间,为相对于$o_{1}$的确定性延迟。

    这意味着检测到的源是一个节点,该节点使相对于传感器节点的观察到的延迟和确定性延迟之间的距离最小。

    7 结论和未来发展

    总而言之,我们回顾了社交网络中信息传播分析的最新进展及其在本文中的应用。具体来说,我们首先介绍了三种典型的信息扩散模型,即独立级联(IC)模型,线性阈值(LT)模型和流行病模型,它们可用于描述信息如何在网络中扩散。然后,我们展示了三个实际问题:权威和影响力评估,影响力最大化以及信息源检测。社交网络中的权威和影响力评估对于有影响力的吊具识别和专家发现很重要,而影响力最大化则有助于病毒式营销和传感器放置。信息源检测具有广泛的应用,例如流行病爆发的预防和社交网络中谣言源的追踪。尽管已为解决这些问题做出了许多努力,但仍有一些改进空间。在这里,我们将列出一些可能的方向,以供进一步研究。

    首先,当前的信息传播模型具有完善的理论属性可用于进一步分析,但简化了实际上非常复杂的现实情况。 用户可以从外部资源(例如电视,报纸和其他网站)访问信息,而不仅仅是从社交网络中的邻居访问信息。 此外,网络中可能同时传播多种类型的信息,例如竞争产品的信息。 因此,有希望在外部影响下对异构社会网络中的多种信息传播进行建模。 例如,迈尔斯(Myers)等人提出了一种模型,其中信息可以通过社交网络的链接或通过外部来源的影响到达节点。 此外,詹等研究了在线社交网络中多个部分对齐的异构环境中的影响最大化问题。

    其次,大的可伸缩性是在现实应用中,尤其是对于大型网络,应用影响力最大化和信息源检测的最大挑战之一。 Borgs等人提出了反向采样算法后,影响最大化的解决方案有了很大的进步,因此,我们可以像Nguyen等人那样借鉴经验,加快信息源检测的解决方案。 此外,在分布式编程中实现这些解决方案是另一个实用的方向。

    第三,大多数当前解决方案都适用于静态网络,而他们却忽略了网络是动态且不断发展的。 例如,用户可能会在一段时间内取消关注他的一些朋友,并且他的个人兴趣可能会在不同主题上发生变化。 也就是说,不同用户之间的联系强度随时间变化。 我们应该考虑到这一事实,以便更好地分析社交网络中的信息传播。

    第四,深度学习最近已应用于社交网络分析的许多任务,例如网络嵌入(network embedding)和链接预测(link prediction)。 社交网络中信息传播的真实过程非常复杂,有时甚至无法观察。 我们可以设计深度学习方法来分析信息扩散吗? 例如,当我们将网络结构和用户属性(例如年龄,性别,职位)输入到基于深度学习的模型中时,我们可以输出该用户的影响力。 Bourigault等人 提出了一种用于社交网络中信息源检测的表示学习方法。 它既不依赖于已知的扩散图也不依赖于假设的扩散定律,而是直接从扩散记录中推断出来源。

    最后,将信息传播分析与其他实际问题结合起来很有吸引力,例如针对社会用户的行为预测[8,133,134]。例如,社交用户通常同时受到多个公司的影响,不仅用户利益,而且这些社交影响都将影响用户的消费行为。 Ma等[135]提出了一种一般方法,要同时考虑目标用户的兴趣和多种社会影响因素,从而确定进行社会营销的目标用户。有价值的用户应具有最佳的平衡影响熵(“犹豫”)和效用得分(“感兴趣”)。 Wu et al。[133]以潜在的社会理论来解释和建模用户的两种行为的演变:用户的偏好(反映在用户-项目交互行为中)和社交网络结构(反映在用户-用户交互行为中)。徐等。[8]试图揭示社交传播如何影响出租车司机未来行为的预测。

  • 相关阅读:
    51nod 1428 活动安排问题
    COGS 1. 加法问题 (水体日常)
    COGS 1406. 邻居年龄排序[Age Sort,UVa 11462](水题日常)
    51nod 1133 不重叠的线段
    51nod 1031 骨牌覆盖
    51nod 1050 循环数组最大子段和
    51nod 1094 和为k的连续区间
    51nod 1433 0和5
    51nod 1092 回文字符串
    洛谷 P1507 NASA的食物计划
  • 原文地址:https://www.cnblogs.com/liuxiangyan/p/12308058.html
Copyright © 2020-2023  润新知