• 网站SEO优化之Robots.txt文件写法。


    作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率。要被百度、google这样的搜索引擎大量收录,才能增加网站展示量,访问量和排名,以达到推广的目的。

    所以,一般正规一点的公司都有专门的SEO专员负责网站的推广与更新。
    说到SEO,首先要做的就是Robots.txt文件。

    Robots.txt是一个非常简单的 搜索引擎声明文件(也叫网站蜘蛛声明文件),是用来帮助网站蜘蛛更快更好的理解网站的架构和站点地图。

     

    这里,还有一个重要的文件,就是站点地图文件“sitemap.xml”(这个可以手工写,也可以使用工具抓取,如果网站比较简单可以自己手工写,一般推荐使用工具抓取。

    下面来介绍一下我所理解的Robots.txt文件的写法。(其实我也是看电子书学来的,总结一下经验。呵呵)

    Robots.txt写法是这样

    A. 禁止所有搜索引擎访问网站的任何部分:
    User-agent: *
    Disallow: /


    B. 允许所有的robot 访问
    User-agent: *
    Disallow:
    或者也可以建一个空文件 "/robots.txt" file


    C. 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private 目录)
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /private/


    D. 禁止某个搜索引擎的访问(下例中的Baiduspider)
    User-agent: Baiduspider
    Disallow: /


    E. 只允许某个搜索引擎的访问(下例中的Baiduspider)
    User-agent: Baiduspider
    Disallow:
    User-agent: *
    Disallow: /


    F. 允许访问特定目录中的部分url
    User-agent: *
    Allow: /cgi-bin/see
    Allow: /tmp/hi
    Allow: /~joe/look
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/


    G. 使用"*"限制访问url
    ser-agent: *
    本电子书由站长百科(www.zzbaike.com)教程制作组制作
    获取更多信息请访问站长百科www.zzbaike.com 20
    Disallow: /cgi-bin/*.htm
    禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。


    H. 使用"$"限制访问url
    User-agent: *
    Allow: .htm$
    Disallow: /
    仅允许访问以".htm"为后缀的URL。


    I. 禁止访问网站中所有的动态页面
    User-agent: *
    Disallow: /*?*


    J. 禁止 Baiduspider 抓取网站上所有图片
    User-agent: Baiduspider
    Disallow: .jpg$
    Disallow: .jpeg$
    Disallow: .gif$
    Disallow: .png$
    Disallow: .bmp$
    仅允许抓取网页,禁止抓取任何图片。


    K. 仅允许Baiduspider 抓取网页和.gif 格式图片
    User-agent: Baiduspider
    Allow: .gif$
    Disallow: .jpg$
    Disallow: .jpeg$
    Disallow: .png$
    Disallow: .bmp$


    下面是一些著名站点的robots.txt,可以参考一下:
    http://www.cnn.com/robots.txt
    http://www.google.com/robots.txt

     

    我自己的博客写法,比较简洁,供参考。

    http://www.feikk.com/robots.txt

    -------------------------------------

    User-agent: *
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    Disallow: /backup
    Disallow: /avatar

    Sitemap: http://www.feikk.com/sitemap.xml
    Sitemap: http://www.feikk.com/sitemap_baidu.xml
    Sitemap: http://www.feikk.com/sitemap.xml.gz
    Sitemap: http://www.feikk.com/sitemap.html

    -------------------------------------

     

    说明(总结):

    User-agent: *

    代表所有搜索引擎,后面的*号可以自定义为想要设置的搜索引擎(如Baiduspider)

    Disallow:/目录名/(作用:隐藏相应目录)

    allow:/目录名/(作用:允许相应目录)

    Disallow: /abc

    后面没有“/”表示abc目录下的所有文件(包括子目录)不被蜘蛛抓取。

    Disallow: /abc/

    后面有“/”表示abc目录不被蜘蛛抓取,但不包括子目录。

    另外,英文最好使用小写英文,虽然标准是没有大小写的,但是目录和文件名应该小写。

    Robot.txt文件最后可以写上站点地图的地址,方便蜘蛛更全更快的索引你的站点。

    Sitemap: http://www.feikk.com/sitemap.xml

     

    好了,不多说了,这么简单的一个文本文件说上这么一堆。

    其实最主要是告诉大家”Disallow: /abc“和”Disallow: /abc/“多一个”/“的区别,因为这个我有过迷惑。

    By:Colin

    转载请注明原文地址及作者,谢谢合作。

    博客地址:http://www.cnblogs.com/colinliu/
    博客版权:本文以学习、记录、分享为目的。欢迎大家转载,但务必注明原文地址,谢谢合作!
  • 相关阅读:
    一个简单的加载动画,js实现
    banner无缝滚动动画,支持左右按钮和小点
    自动检测ie低版本,并显示升级浏览器的自定义页面,当用f12再把浏览器版本提高的时候,又会自动显示正常的页面。
    banner轮播无缝滚动 jq代码
    css 实现背景图片不跟着滚动条滚动而滚动
    截取字符串指定内容,并用*号代替
    日历获取当前月份的月数与当前月份第一天离第一个格子的位置。
    MUI 自定义从底部弹出的弹出框
    textarea 字体限制,超出部分不显示并及时显示还剩字体个数
    清除ul li里面的浮动并让ul自适应高度的一个好办法
  • 原文地址:https://www.cnblogs.com/colinliu/p/3250492.html
Copyright © 2020-2023  润新知