• robots.txt写法介绍与wordpress中的写法推荐


    robots.txt的简单介绍: robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。

    robots.txt的作用介绍:         通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。 设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。

    robots.txt写法注意事项: 1:如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。 2:robots.txt必须放置在一个站点的根目录下,在子目录下无效。如:通过http://yourdomain/robots.txt 可以成功访问到,则说明本站的放置正确。如:http://www.wuhongge.cn/robots.txt 3:robots.txt,User-agent,Disallow等必须注意大小写,不能变化。 4:User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。 5:User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”。 6:Disallow:表示不允许搜索引擎访问和索引的目录。至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (一个反斜杠,表示根目录)。

    下面讲讲wordpress的robots.txt怎么写(写法):

    1:最常用,开放的写法,不作任何限制:

    User-agent: * Disallow:

    2:最简单的严格写法:

    User-agent: * Disallow: /wp-* #Allow: /wp-content/uploads/ Disallow: /*.php$ Disallow: /*.inc$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /?s=

    允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。

    Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

    3:合理的写法:

    User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Disallow: /?s= Sitemap: http://www.wuhongge.cn/sitemap.xml

    允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。

    最后包含sitemap.xml地址。可以使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性(也可以百度搜索一下其它的robots.txt检测工具)。

    robots.txt其他写法简介:

    [code]
    Disallow: /page/
    #限制抓取Wordpress分页
    Disallow: /category/*/page/*
    #限制抓取分类的分页
    Disallow: /tag/
    #限制抓取标签页面
    Disallow: */trackback/
    #限制抓取Trackback内容
    Disallow: /category/*
    #限制抓取所有分类列表
    Disallow: /feed/
    #限制抓取rss更新源
    [/code]

    我的robots.txt:

    User-agent: * Disallow: /cgi-bin Disallow: /feed/ Disallow: /comments/feed Disallow: /trackback Disallow: /comments Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/themes Disallow: /wp-content/plugins Sitemap: http://www.wuhongge.cn/sitemap_baidu.xml Sitemap: http://www.wuhongge.cn/sitemap.xml Sitemap: http://www.wuhongge.cn/sitemap.xml.gz Sitemap: http://www.wuhongge.cn/sitemap.html

            说明一下,这个robots.txt文件允许博客被所有搜索引擎收录,但是不允许蜘蛛访问cgi-bin文件夹以及部分wp开头的文件,这主要是为了博客的安全。此外,不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。后面写上百度和google的sitemap文件地址。

    ps:robots.txt文件写法不是固定不变的,只要语法正确你怎么写都可以,所以可以根据自己的要求书写。

    注意:robots.txt”这个文件名必须为小写!否则搜索引擎不会识别!

    文章作者:沦落凡间 ,作者微博:@沦落凡间
    版权所有 © 如需转载,请以链接形式注明原始出处和作者,谢绝不尊重版权者抄袭!
  • 相关阅读:
    linux引导系统
    Android开发面试经——2.常见Android基础笔试题
    Android开发面试经——1.常见人事面试问题
    Android面试题整理【转载】
    android设置软键盘搜索键以及监听搜索键点击时发生两次事件的问题解决
    Android软键盘弹出时把布局顶上去的解决方法
    Android入门:绑定本地服务
    Android aidl Binder框架浅析
    Android LayoutInflater深度解析 给你带来全新的认识
    Android RecyclerView 使用完全解析 体验艺术般的控件
  • 原文地址:https://www.cnblogs.com/homg/p/3344996.html
Copyright © 2020-2023  润新知