• dedecms:解析Robots.txt 协议标准


    Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

    下面我们就来详细介绍一下它的使用方法:

    Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。

    例如:

    如果您的网站地址是 http://www.dedecms.com

    那么,该文件必须能够通过 http://www.dedecms.com/robots.txt 打开并看到里面的内容。

    格式:

    User-agent:

    用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

    Disallow:

    用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

    举例:

    例一:"Disallow:/help"

    是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

    例二:"Disallow:/help/"

    是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。

    例三:Disallow记录为空

    说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

    Robots.txt 协议中的注释符。

    举例:

    例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,设置方法如下:

    User-agent: *

    Disallow: /bin/cgi/

    Disallow: /tmp/

    Disallow: /foo.html

    例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。

    如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:

    User-agent: *

    Disallow: /cgi/

    User-agent: slurp

    Disallow:

    例三:禁止任何搜索引擎抓取我的网站,设置方法如下:

    User-agent: *

    Disallow: /

    例四:只禁止某个搜索引擎抓取我的网站

    如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:

    User-agent: slurp

    Disallow: /

    通过以上对robots.txt的解析,我们可以由后台的文件目录推导出dedecms标准的写法

    User-agent: *

    Disallow: /data
    Disallow: /dede
    Disallow: /images

    Disallow: /plus
    Disallow: /include
    Disallow: /templets
    Disallow: /uploads

    Sitemap: http://www.xxxxxx.com/sitemap.xml

  • 相关阅读:
    UVa 1349 (二分图最小权完美匹配) Optimal Bus Route Design
    UVa 1658 (拆点法 最小费用流) Admiral
    UVa 11082 (网络流建模) Matrix Decompressing
    UVa 753 (二分图最大匹配) A Plug for UNIX
    UVa 1451 (数形结合 单调栈) Average
    UVa 1471 (LIS变形) Defense Lines
    UVa 11572 (滑动窗口) Unique Snowflakes
    UVa 1606 (极角排序) Amphiphilic Carbon Molecules
    UVa 11054 Wine trading in Gergovia
    UVa 140 (枚举排列) Bandwidth
  • 原文地址:https://www.cnblogs.com/zoomingos/p/10160020.html
Copyright © 2020-2023  润新知