• 解决在静态页面上使用动态参数,造成spider多次和重复抓取的问题


      我们在使用百度统计中的SEO建议检查网站时,总是发现“静态页参数”一项被扣了18分,扣分原因是“在静态页面上使用动态参数,会造成spider多次和重复抓取”。一般来说静态页面上使用少量的动态参数的话并不会对spider的抓取造成什么影响,但要是一个网站静态页面上使用的动态参数过多,那么最后就有可能会造成spider多次和重复抓取了。

      要解决“在静态页面上使用动态参数,会造成spider多次和重复抓取”这一SEO问题,我们需要用到Robots.txt(机器人协议)来限制百度spider对网站页面的抓取,robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

      详解如何通过创建Robots.txt来解决网站被重复抓取,我们只需要设置一个语法。
          User-agent: Baiduspider(仅对百度蜘蛛有效)
      Disallow: /*?* (禁止访问网站中所有的动态页面)
      这样就可以防止动态页面被百度索引,避免出现网站被spider重复抓取了。有些人说:“我的网站是使用伪静态页面的,每个网址html前面都带有?怎么办?” 这种情况的话就使用另一个语法。
          User-agent: Baiduspider(仅对百度蜘蛛有效)
      allow: .htm$(仅允许访问以".htm"为后缀的URL)
      这样就可以让百度蜘蛛只收录你的静态页面,而不索引动态页。其实网站SEO知识还有很多,都需要我们一步一步的去摸索,通过实践去发现真理。注重用户体验的网站才是长久发展的基本点。

      禁止网站被搜索抓取的一些方法:

    先在站点的根目录下新建一个robots.txt文本文件。当搜索蜘蛛访问这个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会先读取这个文件的内容:

    文件写法
    User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,user-agent分号后需加空格。
    Disallow: / 这里定义是禁止爬寻站点所有的内容
    Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
    Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
    Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
    Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
    Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
    Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
    Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
    Allow: /tmp 这里定义是允许爬寻tmp的整个目录
    Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
    Allow: .gif$ 允许抓取网页和gif格式图片
    Sitemap: 网站地图 告诉爬虫这个页面是网站地图
     
    下面列出来的是比较出名的搜索引擎蜘蛛名称:
    Google的蜘蛛: Googlebot
    百度的蜘蛛:baiduspider
    Yahoo的蜘蛛:Yahoo Slurp
    MSN的蜘蛛:Msnbot
    Altavista的蜘蛛:Scooter
    Lycos的蜘蛛: Lycos_Spider_(T-Rex) 
    Alltheweb的蜘蛛: FAST-WebCrawler/ 
    INKTOMI的蜘蛛: Slurp
    SOGOU的蜘蛛:Sogou web spider/4.0和Sogou inst spider/4.0

    按照以上的说明,我们可以给大案一个示例,以Sogou的来说,禁止抓取的robots.txt代码写法如下:
    User-agent: Sogou web spider/4.0
    Disallow: /goods.php 
    Disallow: /category.php

  • 相关阅读:
    浙大PAT CCCC L3-001 凑零钱 ( 0/1背包 && 路径记录 )
    二分图匹配
    Codeforces 939E Maximize ( 三分 || 二分 )
    冲刺第二周第七天
    冲刺第二周第六天
    冲刺第二周第五天
    构建之法阅读笔记04
    冲刺第二周第四天
    构建之法阅读笔记03
    构建之法阅读笔记02
  • 原文地址:https://www.cnblogs.com/tkpn/p/6525653.html
Copyright © 2020-2023  润新知