搜索引擎工作原理简介

搜索引擎工作原理简介

来源：心理测试
搜索引擎的工作过程大体上可以分成三个阶段：
1、爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码入数据库。
搜索引擎工作的第一步，完成数据收集的任务。
1.1 蜘蛛
搜索引擎为了提高爬行和抓取的速度，都使用多个蜘蛛并发分布爬行
常见的蜘蛛名称：
Baiduspider+(+http://www.baidu.com/search/spider.htm)百度蜘蛛
Mozilla/5.0(compatible;Yahoo!Slurp China;http://misc.yahoo.com.cn/help.html)雅虎中国蜘蛛
Mozilla/5.0(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)英文雅虎蜘蛛
Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html) Google蜘蛛
msnbot/1.1(+http://search.msn.com/msnbot.htm)微软 Bing蜘蛛
Sogou+web+robot(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛
Sosospider+(+http://www.soso.com/webspider.htm) 搜搜蜘蛛
Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)有道蜘蛛
1.2、跟踪链接：深度优先和广度优先混合使用
1.3、吸引蜘蛛
网站和页面权重：质量高，资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录
页面更新度
导入链接：高质量的导入链接也经常使页面上的导入链接被爬行深度增加
与首页点击距离：离首页点击距离越近，页面权重越高，被蜘蛛爬行机会也越大
1.4地址库：
为了避免循环重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。
地址库来源：
1.4.1 人工录入的种子网站
1.4.2 蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问的地址库
1.4.3 站长通过搜索引擎网页提交表格提交进来的网址

1.5文件存储

1.6爬行时复制内容检测：
蜘蛛在爬行和抓取文件时，也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。这也就是站长在日志文件中发现了蛛蛛，但页面从来没有补真正收录过的原因。

2、预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。
简称：索引，因为索引是处理最主要的步骤。
2.1提取文字：
2.2中文分词：基于词典匹配和基于统计
2.3去停止词
2.4消除噪声
2.5去重
2.6正向索引
2.7倒排索引
2.8链接关系计算
2.9特殊文件处

3、排名：用户输入关键后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页。
相关阅读:
缓存
 Java缓存
 数据库事务
 spring 事务管理
 MySQL错误解决10038
mysql存储过程
 ECS修改默认端口22及限制root登录
 xunsearch安装配置
 https和http共存的nginx配置
 ECS 安装redis 及安装PHPredis的扩展
原文地址：https://www.cnblogs.com/wdkshy/p/3304745.html