看过PageRank的原始论文,有一个些疑惑:为什么最终会收敛?
现在大概才清楚了:pageRank其实是随机概率中的马尔科夫链应用在web中。马尔科夫链的性质:可收敛、跟初始状态无关。看看这个PPT就懂了http://wenku.baidu.com/view/e1ef56c9da38376baf1fae90.html。
以下是几篇关于PageRank的好文章:
中文:
1)深入探讨PageRank(二):PageRank原理剖析 http://blog.csdn.net/monkey_d_meng/article/details/6556295
2)Google搜索与Inter网中的数学
英文:
1)斯坦福大学的文档,通俗易懂!
http://infolab.stanford.edu/~ullman/mining/websearch.pdf
这里讲到“Dead Ends”的情况(pagerank文章中称之为“sink”,即一个page出度为0,这样会造成importance损失,逐渐减少到0)和“ Spider Traps”的情况(即一个group中的page都没有指向这个group外的链接,这样会造成importance一直累积。
如果一个page的入度为0,则通过传递,最后所有page将为0。
2)The Google Pagerank Algorithm and How It Works
http://www.sirgroane.net/google-page-rank/
这个文档貌似也很详细,举了很多具体的例子:
3)How Google Finds Your Needle in the Web's Haystack