• spider爬站极度损耗站点流量


    或许部分站长遇到过这样的情况,Baiduspider对一个网站的抓取频率要远高于新内容产出速度,造成了N多的流量被蜘蛛占用。

    这样的情况一般是针对小站,因为大站访问量很大,蜘蛛对服务器的频繁访问不会有什么样的影响。但是对于小站而言,如果蜘蛛去爬得很频繁,就会造成很多流量 资源的浪费,而且很多小站都是有IIS限制的,这样的情况发生后对于用户体验也会产生很大的影响,因为网站老久打不开。

          相信很多站长都有遇到过这样的问题,一般产生这样的原因有下面几种原因。

          一、其他程序冒充Baiduspider程序去抓取网站内容。
         
          二、网站程序产生的漏洞,产生了很多无穷尽的url,被百度Baiduspider当成了很多新内容而频繁的抓取。

          出现的这些问题,都有哪些解决方法呢?
    对于出现的第一种情况,建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。

          对于出现的第二种情况,建议分析网站的访问日志,看看 Baiduspider所抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内 容。

          当网站经常访问速度慢,但流量却不是很高的时候,我们可以从蜘蛛的访问日志下手,分析下Baiduspider留下的痕迹,或许问题就出在这里。
         

          但是,现在网站的程序都是很完善的了,一般以第一种原因居多。

  • 相关阅读:
    cobalt strike
    php学习
    windows免费?linux免费?赶紧过来看吧
    python实现文件加密
    python写一个能生成三种一句话木马的脚本
    hardentools
    TensorFlow实战——个性化推荐
    对比深度学习十大框架:TensorFlow 并非最好?
    YCSB性能测试工具使用(转)
    Python文件夹与文件的操作(转)
  • 原文地址:https://www.cnblogs.com/ruiy/p/rate.html
Copyright © 2020-2023  润新知