搜索引擎算法研究专题七：Hilltop算法

搜索引擎算法研究专题七：Hilltop算法

HillTop也是搜索引擎结果排序的专利，是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化，但变化最大的一次也就是2003年的基于HillTop算法的优化。
　　HillTop算法的指导思想和PageRank的一致，都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为“专家”文档，从这些专家文档页面到目标文档的链接决定被链接网页的权重值。
　　Hilltop算法定义一个网站与其它网站的相关性，作为识别跨站点的链接交换干扰与识别相似链接的技术，以杜绝那些想通过任意链接来扰乱排名规则、那些想通过增加无效链接来提高网页PageRank值的做弊行为。
　　HillToP算法基本过程可以分为两步:
　　l 首先，根据查询寻找“专家网页”，专家网页是关于一定主题、指向许多非隶属网页、其中至少有一个短语包含查询关键词的网页。
　　l 其次，给顶部专家网页链向的目标网页打分，这个过程综合了它与所有相关专家网页的链接关系。
　　基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选，目前，Google首先给了教育(.edu)，政府(.gov)和非盈利组织(.org)站点很高的优先级。
　　作为对原始PageRank算法的补充，Hilltop算法具有以下优点
　　l 与原始的PageRank相比，Hilltop是主题灵敏的，通过来自“权威性”文挡的链接来确定网页的可信度。对于具有同样主题、PR相近的网页排序，HillTop算法显得非常重要。与以购买离题链接而获得高排名相比，这更难以人为操作。Hilltop解决了这个问题，随意性链接已经失去往日的作用，即使仍有一定的价值，但与来自于专家网站的链接相比，不能相提并论。
　　l Hilltop与Trust Rank相似，但更加自动化。它依赖于专家文档和源于这些文档的链接，如X链接到Y，Y链接到Z，那么X和Z也相关。
　　然而，Hiltop在应用中还存在如下一些问题：
　　l 专家页面的搜索和确定对算法起关键作用，专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。
　　l Hiltop忽略了大多数非专家页面的影响。
　　l 在Hiltop的原型系统中，专家页面只占到整个页面的1.79%，不能全面反映民意。
　　l Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面)，返回为空，即Hiltop适合于对查询排序进行求精，而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合，提高精度，而不适合作为一个独立的页面排序算法。
　　l Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的，这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大，算法的可伸缩性存在不足之处。
相关阅读:
IO流
 简单JSON
开发流程
 命名规范
 策略模式
 Git的使用
 Markdown的使用
 代理模式
 装饰者模式
 POJ 2976 3111（二分-最大化平均值）
原文地址：https://www.cnblogs.com/chenying99/p/2540011.html