robots.txt 简单解析

简介

robots.txt 是一个规范，对于执行正常操作的爬虫理应遵守的规范.

例子

博客园例子

https://www.cnblogs.com/robots.txt

User-Agent: *
Allow: /

允许所有爬虫爬取网站任何地址。

百度例子

User-agent: Baiduspider # 百度自己的爬虫
Disallow: /baidu # 不允许自己的爬虫爬取百度的站点 https://www.baidu.com/baidu.html
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/ # /home/news/data/目录的所有内容

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

参考链接

百度站长管理

Hope is a good thing,maybe the best of things,and no good thing ever dies.----------- Andy Dufresne

相关阅读:
Hibernate持久化对象修改id重新保存的办法
hibernate实现数据实体复制保存
MySQL 语句中执行优先级——and比or高
Unity3D研究院之静态自动检查代码缺陷与隐患
MVC模式在游戏开发的应用
Unity3D的LightProbe动态光探头用法介绍
高达渐出现效果Shader
Unity3D战争迷雾效果
从3D Studio Max导入物体 Importing Objects From 3D Studio Max
从maya导入物体 Importing Objects From Maya

原文地址：https://www.cnblogs.com/eat-too-much/p/11559116.html