常见的优秀网络爬虫有一下几种类型:
1.批量型网络爬虫:限制抓取的属性,包括 抓取范围,特定目标,限制抓取时间,限制数量以及相知抓取页面,总之明显的特征就是受限,
2.增量网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无之直到抓取万所有的数据,这种类型一般用于搜索引擎的网站或程序。
3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限西华的增量网络爬虫,可以细致的对诸如行业,内容,发布时间,页面大小等很多因素进行筛选。
这些爬虫的功能不一,使用的方法也不同,例如谷歌,百度搜索就使用的增量爬虫,提供大而全的内容雷满足世界各地的用户,另外,天猫,京东很多店铺需要屏蔽外来的抓取,这时就需要爬虫爬虫根据一些低级域名的连接来抓取他们进行排名。