网络爬虫的尺寸
网络爬虫的限制
-
来源审查:判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问
-
发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守
Robots协议
作用:
网站告知网络爬虫哪些网页可以爬取,哪些不行
形式:
在网站根目录下的robots.txt文件
来源审查:判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问
发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守
作用:
网站告知网络爬虫哪些网页可以爬取,哪些不行
形式:
在网站根目录下的robots.txt文件