防爬规则:
1.按照ip段聚合,5分钟内的ip段(前两位访问量)
2.按照ip段聚合,某个ip,5分钟访问总量
3.按照ip段聚合,某个ip,5分钟内的关键页面访问总量
4.按照ip段聚合,某个ip,5分钟内的ua种类统计
5.按照ip地址聚合,某个ip,5分钟内页面查询不同行程的次数。
6.按照ip地址聚合,某个ip,5分钟内关键页面的访问的cookie数。
7.按照ip地址聚合,某个ip,5分钟内的关键页面最短访问间隔。
8.
爬虫特点:
1.长期,重复爬取数据
2.使用多个代理(up,ip),爬取数据
3.每个ip短时间内爆发较高流量
4.每个ip白天和夜晚的请求次数均衡
5.热门的查询频率更快
6.浏览路径不完整(一次命中回话为其典型代表)