• Information Retrieval --- Web Search


    一、检索应用:采样、查重

    二、链接分析

    1.PageRank

    image

    一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多,那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向,那么它也越重要(PageRank越高) 。

    image

    image

    *随机游走(Random Walk)模型:到达u的概率由两部分组成,一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有

    image

    2.HITS(Hyperlink-Induced Topic Search)算法

    image

    image

    一个网页被越重要的导航型网页指向越多,那么它的Authority越大;一个网页指向的高重要度权威型网页越多,那么它的Hub越大。

    计算过程:

    a.搜索的结果称为根集(root set);
    b.将所有链向种子集合和种子集合链出的网页加入到种子集合;
    c.新的更大的集合称为基本集(base set);
    d.最后,在基本集上计算每个网页的hub值和authority值 (该基本集可以看成一个小的Web图)。

    image

  • 相关阅读:
    Android 动画-alpha(渐变透明度动画效果)
    Memento(备忘录)
    Mediator(中介者)
    Iterator(迭代器)
    Command(命令)
    Chain of Responsibility(责任链)
    Template Method(模板方法)
    Interpreter(解释器)
    Proxy(代理)
    Flyweight(享元)
  • 原文地址:https://www.cnblogs.com/jizhiyuan/p/3477518.html
Copyright © 2020-2023  润新知