• [IR课程笔记]Page Rank


    主要目的:

       在网络信息检索中,对每个文档的重要性作出评价。

    Basic Idea:

       如果有许多网页链接到某一个网页,那么这个网页比较重要。

        如果某个网页被一个权重较大的网页链接,那么这个网页比较重要。

    随机游走模型:

       过程:1.在所有网页中,随机选择一个网页作为游走的开端。

                2.然后在当前网页上的超链接中,随机选择一个超链接跳转到下一个网页。

                3.大量重复1.2的过程。

    重要度计算方法:

    Pr(pi|p1)表示从编号为1的网页跳转到编号为i的网页的概率,其计算方式为 Pr(Pi|P1) = 1/m ,当编号为1的这个网页上有到i的连接时,否则该值为0。m表示编号为1的网页中的连接总数。

        在Page Rank中,我们最终想要得到的是就是w 这个向量,在计算过程中,可以采用迭代的方法:刚开始,所有网页被访问的概率是一样的,所以w=(1,1,...,1)T

             Iterate: wk = Bwk-1   直到我们可以认为 w= wk-1

    随机游走模型的一个问题:

         

    Solution:

          为了解决这个问题,我们引入一个阻尼系数d,假设用户在随机游走模型中,在准备浏览下一个网页的过程中,有概率为d在当前网页选择一个超链接,也有概率为1-d的可能在地址栏键入一个新网址。由此,权重计算公式更新为:

     

         如何排序?

        用户输入一个query,搜索引擎首先计算文档的相关度和重要度,将这两个值乘以相应的参数再相加,选取top-n呈现给用户。

    Topic Sensetive Page Rank

         

        Basic Idea:

        用户在随机选择一个网页进行访问时,一般是选取与当前主题(topic)相同的网页。

         Method:

         在计算网页的重要度时,需要计算其在每一个主题上的重要度pi,用户输入一个query时,用分类器计算这个query在每个主题上的概率wi,最后计算R(P,Q)=w1p1+w2p2+..+wnpn

         

             Basic PageRank (in matrix form)

          在Topic Sensetive Page Rank 中,假设有主题分类Ci,Tj表示Ci的一个子集

         下面是p的初始值,若i页面属于主题分类Ci,那么vji = 1/(Tj),否则为0。

        以上式子是根据用户只会向相同主题页面跳转的规律得来的。

        把v代替p带入到Basic PageRank的公式中,需要注意的是,对于每一个主题,都需要计算Rank的值

        那么,得到每一个页面的每一个Rank值之后,计算每一个页面的R(P,Q)=w1p1+w2p2+..+wnpn,其中wi表示query属于i分类的概率,而Pi表示该页面在i分类上的rank值。

     

  • 相关阅读:
    python学习之旅-02
    python学习之旅-01
    wps2016热点永久关闭
    一个游戏制作的全过程
    游戏是怎么赚钱的
    游戏数值策划入门教程
    成长系统的设计方法:如何“挖坑”,又不让玩家反感
    游戏数值策划经验篇:从多角度解读游戏经验值设计
    暴雪战斗公式——除法公式的精髓
    游戏数值策划属性篇(二):属性价值评估
  • 原文地址:https://www.cnblogs.com/leeshum/p/4918046.html
Copyright © 2020-2023  润新知