• Robots协议


    1 一般对爬虫的限制

      爬虫会造成问题

        对网站服务器的骚扰

        可能会引起法律问题

        而且可能由于爬虫具有一定的突破性, 可能获取一些平常不能获取到的数据造成隐私泄露

      一般对爬虫限制的两个方法

        1) 来源审查, 判断User-Agent进行限制

          具体来说就是根据HTTP来访的协议头中的User-Agent

        2) robots协议

    2 robots协议

      在网站的根目录下, 有一个robots.txt文件就是该网站的robots协议的描述

      如果网站没有robots协议就说明该网站对网络爬虫没有限制

      robots的格式是

        User-agent : 拒绝的网络爬虫

        Disallow: 禁止爬取的目录

    User-agent: HuihuiSpider 
    Disallow: / 
    #这个robots协议就说明不允许HuihuiSpider 爬取该网站的任何网页

      robots协议的规则

        robots是建议性的文件, 无法做到约束, 但是不遵守会存在法律风险

        如果爬取的性能类似人的操作, 不会造成对网站服务器性能的影响, 原则上可以忽略robots协议

    人若有恒 无所不成
  • 相关阅读:
    SQL 脚本 重复执行 约束
    xiami 精选集
    PHP 5 环境配置
    Thread线程类
    创建线程
    C#中简单的正则表达式(也经常会用到的)
    线程的挂起与恢复
    C#操作INI文件
    多线程简介
    单线程简介
  • 原文地址:https://www.cnblogs.com/weihuchao/p/6700078.html
Copyright © 2020-2023  润新知