网络爬虫引发的问题
网络爬虫的尺寸
网络爬虫骚扰
网络爬虫的法律风险
网络爬虫泄露隐私
网络爬虫的限制
1.通过请求头
2.发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守。
Robots协议
网络爬虫排除标准
作用:告知网络爬虫哪些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件
案例:真实的Robots协议
https://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt
https://news.qq.com/robots.txt
http://www.moe.edu.cn/robots.txt (无robots协议)
Robots协议的遵守方法