来源:心理测试
搜索引擎的工作过程大体上可以分成三个阶段:
1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码入数据库。
搜索引擎工作的第一步,完成数据收集的任务。
1.1 蜘蛛
搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛并发分布爬行
常见的蜘蛛名称:
Baiduspider+(+http://www.baidu.com/search/spider.htm)百度蜘蛛
Mozilla/5.0(compatible;Yahoo!Slurp China;http://misc.yahoo.com.cn/help.html)雅虎中国蜘蛛
Mozilla/5.0(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)英文雅虎蜘蛛
Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html) Google蜘蛛
msnbot/1.1(+http://search.msn.com/msnbot.htm)微软 Bing蜘蛛
Sogou+web+robot(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛
Sosospider+(+http://www.soso.com/webspider.htm) 搜搜蜘蛛
Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)有道蜘蛛
1.2、跟踪链接:深度优先和广度优先混合使用
1.3、吸引蜘蛛
网站和页面权重:质量高,资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录
页面更新度
导入链接:高质量的导入链接也经常使页面上的导入链接被爬行深度增加
与首页点击距离:离首页点击距离越近,页面权重越高,被蜘蛛爬行机会也越大
1.4地址库:
为了避免循环重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。
地址库来源:
1.4.1 人工录入的种子网站
1.4.2 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问的地址库
1.4.3 站长通过搜索引擎网页提交表格提交进来的网址
1.5文件存储
1.6爬行时复制内容检测:
蜘蛛在爬行和抓取文件时,也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是站长在日志文件中发现了蛛蛛,但页面从来没有补真正收录过的原因。
2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
简称:索引,因为索引是处理最主要的步骤。
2.1提取文字:
2.2中文分词:基于词典匹配和基于统计
2.3去停止词
2.4消除噪声
2.5去重
2.6正向索引
2.7倒排索引
2.8链接关系计算
2.9特殊文件处
3、排名:用户输入关键后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页。