pagerank示例:
公式说明:
S(Vi) :Vi的PR值
Vi :Vi页面
d :一个阻尼系数,(其实我也不太明白),一个作用就是避免起点页面的PR为零。统计结果表明,设置成0.85就行。(大约100多次迭代PR值就能收敛到一个稳定的值,而当阻尼系数接近1时,需要的迭代次数会陡然增加很多,且排序不稳定)
Out(Vj) :表示从页面(Vj)连接到其他页面的个数
j ∈ In(Vi):表示属于链接到页面Vi的页面。
归纳:
1.采用投票的思想,
2.一个页面会链接到N个页面,那么这个页面链接到其中目标页面的PR值,就是N分之一,这就是入链页面的PR值
3.把所有入链页面的PR值相加,就得到了总的PR值
4.最后经过阻尼系数的处理,就得到了最终页面的PR值。
举个例子:
按照公式:
1. page1的PR值,因为是首个页面,没有入链页面,所以PR值就是 S(P1) =(1-d) + d * 0 = 1-0.85=0.15
2. page2,page3与page1页面相同,所以都是0.15
3. 计算page4的PR值,page1,page3都是page4的入链,所以要计算它们的平均PR值,page1的出链是page4,page5,所以page1的PR值就是0.15/2=0.0525;page3的出链也是2个,所以PR值就是0.15/2=0.0525;
4. S(P4) = (1-d) + d * (S(P1) + S(P2))
= 0.15 + 0.85 * (0.0525 + 0.0525)
= 0.2775