• robots.txt文件里面怎样屏蔽蜘蛛


     

    robots.txt文件,是每个网站都可以用来跟,遵循robots协议的搜索引擎蜘蛛,进行对话的一段代码。

    我们先来看一个列子,让搜索引擎抓取所有的内容,代码如下:

    User-agent: *
    Allow: /
    其中User-agent后面跟的是蜘蛛的名字,如果是所有的蜘蛛都遵守的话,那么就可以用*来代替所有的蜘蛛,如果只是针对某一蜘蛛的话,
    那么只需要列出来这个蜘蛛的名字即可。如果不想让蜘蛛来爬取,那么只需要将Allow修改为Disallow,禁止爬取即可,/后面跟的内容就是
    禁止或允许爬取的内容。

    而有时候蜘蛛爬取过于频繁,那么我们需要添加Crawl-delay这个代码,他的意思是告诉蜘蛛延时多少秒以后再来爬取,我们可以看下实例:

    User-agent: *
    Crawl-delay: 500

    前面的内容都一样,不同的是Crawl-delay后面只能跟数字,而且只能是正整数。

    我们常用的代码还包括:User-agent、Disallow、Allow以及Crawl-delay等。

    其实最好的办法你还是尝试下robots.txt文件的设置,在网站的robots.txt文件中加上如下内容:
    以百度蜘蛛为例

    User-agent: Baiduspider
    Disallow: /

      这种方法如果不能完全屏蔽百度的爬虫,也就是蜘蛛要是不遵守robots协议,我们才要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

      方法1:

    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
    RewriteRule .* - [F]

      方法2:

    SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot


    Order Allow,Deny
    Allow from all
     


    安徽育儿网 http://www.ahyuer.com

  • 相关阅读:
    ARM与MIPS平台优劣对比分析
    ARM11Linux2.6ButtonDriverBaseinfo1
    程序员都应该阅读的十一本名书
    驱动设计ARM(6410)按键驱动0基础知识点
    创业编程七个错误认识
    ARM11Linux2.6ButtonDriverBaseinfo
    Arm设计思想与高效C语言编程联系
    个人软件已死?
    评价一个软件的3个角度
    我对北理FTP联盟的建议
  • 原文地址:https://www.cnblogs.com/jincon/p/1941982.html
Copyright © 2020-2023  润新知