• 如何设置让网站禁止被爬虫收录?robots.txt


    robot.txt只是爬虫禁抓协议,user-agent表示禁止哪个爬虫,disallow告诉爬出那个禁止抓取的目录。
    如果爬虫够友好的话,会遵守网站的robot.txt内容。

    一个内部业务系统,不想被爬虫收录。
    请问该如何做
    linzhou0207 | 浏览 9607 次 问题未开放回答 |举报
    发布于2016-07-05 19:47 最佳答案
    网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

    比如,要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。
    以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

    1、通过 robots.txt 文件屏蔽
    可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
    User-agent: Baiduspider
    Disallow: /
    User-agent: Googlebot
    Disallow: /
    User-agent: Googlebot-Mobile
    Disallow: /
    User-agent: Googlebot-Image
    Disallow:/
    User-agent: Mediapartners-Google
    Disallow: /
    User-agent: Adsbot-Google
    Disallow: /
    User-agent:Feedfetcher-Google
    Disallow: /
    User-agent: Yahoo! Slurp
    Disallow: /
    User-agent: Yahoo! Slurp China
    Disallow: /
    User-agent: Yahoo!-AdCrawler
    Disallow: /
    User-agent: YoudaoBot
    Disallow: /
    User-agent: Sosospider
    Disallow: /
    User-agent: Sogou spider
    Disallow: /
    User-agent: Sogou web spider
    Disallow: /
    User-agent: MSNBot
    Disallow: /
    User-agent: ia_archiver
    Disallow: /
    User-agent: Tomato Bot
    Disallow: /
    User-agent: *
    Disallow: /
    2、通过 meta tag 屏蔽
    在所有的网页头部文件添加,添加如下语句:

    3、通过服务器(如:Linux/nginx )配置文件设置
    直接过滤 spider/robots 的IP 段。
    小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。


  • 相关阅读:
    Spring service本类中方法调用另一个方法事务不生效问题(转载)
    JVM垃圾收集器
    LInkedHashMap实现最近被使用(LRU)缓存
    HTML模板与iframe框架
    Mybatis中常用sql语句
    从零到一: 后端接口文档
    Mysql日期处理
    Java-集合框架与数组的实际应用-组装Json字符串
    Mysql查询之 指定顺序排序
    Eclipse中复制项目后,怎么更改项目名等相关配置?
  • 原文地址:https://www.cnblogs.com/lxwphp/p/7730821.html
Copyright © 2020-2023  润新知