spider爬站极度损耗站点流量

或许部分站长遇到过这样的情况，Baiduspider对一个网站的抓取频率要远高于新内容产出速度，造成了N多的流量被蜘蛛占用。

这样的情况一般是针对小站，因为大站访问量很大，蜘蛛对服务器的频繁访问不会有什么样的影响。但是对于小站而言，如果蜘蛛去爬得很频繁，就会造成很多流量资源的浪费，而且很多小站都是有IIS限制的，这样的情况发生后对于用户体验也会产生很大的影响，因为网站老久打不开。

   相信很多站长都有遇到过这样的问题，一般产生这样的原因有下面几种原因。

   一、其他程序冒充Baiduspider程序去抓取网站内容。

   二、网站程序产生的漏洞，产生了很多无穷尽的url，被百度Baiduspider当成了很多新内容而频繁的抓取。

   出现的这些问题，都有哪些解决方法呢？
对于出现的第一种情况，建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充，Baiduspider的hostname以*.baidu.com的格式命名。

   对于出现的第二种情况，建议分析网站的访问日志，看看 Baiduspider所抓取的内容是否是你想让百度收录的，如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。

   当网站经常访问速度慢，但流量却不是很高的时候，我们可以从蜘蛛的访问日志下手，分析下Baiduspider留下的痕迹，或许问题就出在这里。


   但是，现在网站的程序都是很完善的了，一般以第一种原因居多。

相关阅读:
cobalt strike
php学习
windows免费？linux免费？赶紧过来看吧
python实现文件加密
python写一个能生成三种一句话木马的脚本
hardentools
TensorFlow实战——个性化推荐
对比深度学习十大框架：TensorFlow 并非最好？
YCSB性能测试工具使用(转)
Python文件夹与文件的操作（转）

原文地址：https://www.cnblogs.com/ruiy/p/rate.html