了解一下,爬虫可以分为以下四种类型:
- 聚焦网络爬虫(主题网络爬虫): 会针对某种特定的内容去爬取信息,且会保证信息和需求尽可能相关。
- 通用爬虫(全网爬虫):广度优先策略或深度优先策略
获取url,根据url爬页面后获取新url,在根据新url获取新新url,满足条件时停止爬取。
- 增量抓取:通过爬虫程序检测某网站数据更新情况,一遍可以爬取到该网站更新后的新数据。 适用场景--目标网站在原有网页数据基础上更新一批数据
- 表层网页:不需要提交表单,适用静态链接访问的静态页面。
- 深层网页:不能通过静态链接直接获取,需要提交一定的关键词后才能获取到的页面。
参考:https://mp.weixin.qq.com/s/J8NYr1l64_kuUagLIGqUag