• 离robots.txt启动网络爬虫之旅


            要成为一个网络爬虫或搜索引擎(在这里,共同蜘蛛)它不会陌生,在搜索引擎爬虫的第一个文件或者访问该网站上浏览robots.txt该。robots.txt文件讲述了蜘蛛server哪些文件要观看正在。

            当一个搜索蜘蛛訪问一个网站时,它会首先检查该网站根文件夹下是否存在robots.txt,假设存在,搜索机器人就会依照该文件里的内容来确定訪问的范围;假设该文件不存在。全部的搜索蜘蛛将可以訪问网站上全部没有被口令保护的页面。

             那我们应该如何使用robots.txt呢?

             第一: robots.txt必须放置在一个网站的根文件夹下。并且文件名称必须所有小写。
             第二:必须遵循下面语法:
                                 最简单的 robots.txt 文件使用三条规则:
                                 :User-Agent: 适用下列规则的漫游器(比方百度(Baiduspider)、Google(Googlebot))
                                 :Disallow: 要拦截的网页(能够和)
                                 :Allow: 同意语法(Disallow结合起来使用)

            接下来让我们看下实际应用。

    一般站点中不须要蜘蛛抓取的文件有:后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们能够写下面robots.txt内容:

           User-agent: *
           Disallow: /admin/ 后台管理文件
           Disallow: /require/ 程序文件
           Disallow: /attachment/ 附件
           Disallow: /images/ 图片
           Disallow: /data/ 数据库文件
           Disallow: /template/ 模板文件
           Disallow: /css/ 样式表文件
           Disallow: /lang/ 编码文件
           Disallow: /script/ 脚本文件

    假设你想同意全部搜索引擎訪问站点的全部部分

    1、你能够建立一个空白的文本文档。命名为robots.txt
    2、User-agent: *
           Disallow:
    3、User-agent: *
          Allow: /

    假设你想禁止全部搜索引擎訪问站点的全部部分。把上面2中改成    Disallow: /    就能够了

    假设你想禁止百度    User-agent: Baiduspider

    假设你想禁止除Google外的一切搜索引擎

           User-agent: Googlebot
           Disallow:
           User-agent: *
           Disallow: /

    注:事实上并不是全部的爬昆虫将遵循robots.txt合约,因为我们能够制造恶意爬行动物。哈哈

    版权声明:本文博主原创文章。博客,未经同意不得转载。

  • 相关阅读:
    解决SecureCRT中文显示乱码
    最新ubuntu10.10更新源
    向linux内核添加系统调用新老内核比较
    Field requires API level 5 (current min is 1) 问题的解决
    ubuntu 搜索文件方法(find命令)
    ubuntu12.04终端全屏
    .classpath 文件中的excluding属性
    eclipse中的.project 和 .classpath文件的具体作用
    Windows Mobile项目编译很慢情况的解决(VS2008)
    windowsphone7高级编程中提到的地址
  • 原文地址:https://www.cnblogs.com/zfyouxi/p/4817361.html
Copyright © 2020-2023  润新知