• robots.txt协议-互联网robots搜索规范


    最近在看搜索爬虫相关的,挺有趣的,记录一些信息备用。

    robots.txt官方说明网站

    http://www.robotstxt.org/

    robots.txt原则

    Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
    1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
    2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

    robots.txt基本介绍

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

    当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

    如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

    另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

    淘宝封杀百度爬虫

    可以查看taobao的robots.txt文件:http://www.taobao.com/robots.txt

    京东封杀一淘爬虫

    可以查看jd的robots.txt文件:http://www.jd.com/robots.txt

    关于robots.txt的百度百科说明

    robots协议

  • 相关阅读:
    jsp eclipse 创建jsp项目
    SQL Server 身份验证 登陆
    HUD 5086 Revenge of Segment Tree(递推)
    HDU 1700 Points on Cycle (几何 向量旋转)
    RocketMQ broker jvm 监控
    RocketMQ runbroker.sh 分析JVM启动参数
    问题:虚拟机老生代垃圾回收频繁出现
    空白行 ,空白
    eclipse find 两位数
    生成字母+数字6位字符串
  • 原文地址:https://www.cnblogs.com/liangjichen/p/4323591.html
Copyright © 2020-2023  润新知