Python爬虫二 Robots协议 - 润新知

Python爬虫二 Robots协议
网站限制爬虫的两个办法：
- 审查来源
- robots告知
robots协议存放在网站根目录，并不是所有的网站都有robots协议的

基本语法：
User-agent：* 爬虫来源，*代表所有
Disallow：/ 不允许爬取的资源目录，/代表根目录

爬虫怎么遵守robots协议？
自动或人工识别robots协议，再进行内容爬取
相关阅读:
CSS3新增文本属性实现图片点击切换效果
 swipe和swiper的区别
 uncaught syntaxerror: unexpected token
科协前辈的阿里面试经验转载1
Oracle 分析函数
 Jakarta Commons HttpClient 学习笔记 (二)
Ubuntu eclipse下android virtual device manager不能删除AVD
Android的界面设计工具——DroidDraw
JS异步请求数据
 Ubuntu配置JDK和Android环境变量
原文地址：https://www.cnblogs.com/leerep/p/12444676.html

Copyright © 2020-2023 润新知