网站限制爬虫的两个办法:
- 审查来源
- robots告知
robots协议存放在网站根目录,并不是所有的网站都有robots协议的
基本语法:
User-agent:* 爬虫来源,*代表所有
Disallow:/ 不允许爬取的资源目录,/代表根目录
爬虫怎么遵守robots协议?
自动或人工识别robots协议,再进行内容爬取
网站限制爬虫的两个办法:
robots协议存放在网站根目录,并不是所有的网站都有robots协议的
基本语法:
User-agent:* 爬虫来源,*代表所有
Disallow:/ 不允许爬取的资源目录,/代表根目录
爬虫怎么遵守robots协议?
自动或人工识别robots协议,再进行内容爬取