- 爬虫:我写的程序,能够模拟浏览器上网,还能获取数据。
- 爬虫的分类:
- 通用爬虫:理解 将url对应的整张页面爬取。
- 聚焦爬虫:理解 将页面局部或者特定的内容爬取。
- 增量式爬虫: 理解 将之前爬过的内容去重,还可自己封装进行判断去重,然后进行爬取页面最新的内容。
- 反爬机制:阻止爬虫程序爬取内容。
- 反反爬策略:爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。
- robots.txt协议 理解 是一种反爬机制。
- 爬虫:我写的程序,能够模拟浏览器上网,还能获取数据。
- 爬虫的分类:
- 通用爬虫:理解 将url对应的整张页面爬取。
- 聚焦爬虫:理解 将页面局部或者特定的内容爬取。
- 增量式爬虫: 理解 将之前爬过的内容去重,还可自己封装进行判断去重,然后进行爬取页面最新的内容。
- 反爬机制:阻止爬虫程序爬取内容。
- 反反爬策略:爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。
- robots.txt协议 理解 是一种反爬机制。