• 搜索引擎工作原理简介


    来源:心理测试
    搜索引擎的工作过程大体上可以分成三个阶段:
    1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码入数据库。
    搜索引擎工作的第一步,完成数据收集的任务。
    1.1 蜘蛛
    搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛并发分布爬行
    常见的蜘蛛名称:
    Baiduspider+(+http://www.baidu.com/search/spider.htm)百度蜘蛛
    Mozilla/5.0(compatible;Yahoo!Slurp China;http://misc.yahoo.com.cn/help.html)雅虎中国蜘蛛
    Mozilla/5.0(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)英文雅虎蜘蛛
    Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html) Google蜘蛛
    msnbot/1.1(+http://search.msn.com/msnbot.htm)微软 Bing蜘蛛
    Sogou+web+robot(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛
    Sosospider+(+http://www.soso.com/webspider.htm) 搜搜蜘蛛
    Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)有道蜘蛛
    1.2、跟踪链接:深度优先和广度优先混合使用
    1.3、吸引蜘蛛
    网站和页面权重:质量高,资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录
    页面更新度
    导入链接:高质量的导入链接也经常使页面上的导入链接被爬行深度增加
    与首页点击距离:离首页点击距离越近,页面权重越高,被蜘蛛爬行机会也越大
    1.4地址库:
    为了避免循环重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。
    地址库来源:
    1.4.1 人工录入的种子网站
    1.4.2 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问的地址库
    1.4.3 站长通过搜索引擎网页提交表格提交进来的网址

    1.5文件存储

    1.6爬行时复制内容检测:
    蜘蛛在爬行和抓取文件时,也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是站长在日志文件中发现了蛛蛛,但页面从来没有补真正收录过的原因。

    2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
    简称:索引,因为索引是处理最主要的步骤。
    2.1提取文字:
    2.2中文分词:基于词典匹配和基于统计
    2.3去停止词
    2.4消除噪声
    2.5去重
    2.6正向索引
    2.7倒排索引
    2.8链接关系计算
    2.9特殊文件处

    3、排名:用户输入关键后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页。

  • 相关阅读:
    【Android数据存储】内部存储
    【Android数据存储】SharedPreferences
    【JAVA】Java开发使用技巧_获取当前项目中某个文件路径
    【Android Studio】Android Studio 常用快捷键
    跨域问题:解决跨域的三种方案
    maven问题:如何启动maven项目
    maven问题:如何不继承父工程的依赖
    itmacy_我的博客
    springboot定时器
    管理者最高境界:看不见,听不见,做不了
  • 原文地址:https://www.cnblogs.com/wdkshy/p/3304745.html
Copyright © 2020-2023  润新知