• 简单了解下四种爬虫类型


    了解一下,爬虫可以分为以下四种类型:

    • 聚焦网络爬虫(主题网络爬虫): 会针对某种特定的内容去爬取信息,且会保证信息和需求尽可能相关。
    • 通用爬虫(全网爬虫):广度优先策略或深度优先策略  

      获取url,根据url爬页面后获取新url,在根据新url获取新新url,满足条件时停止爬取。

    • 增量抓取:通过爬虫程序检测某网站数据更新情况,一遍可以爬取到该网站更新后的新数据。
    • 适用场景--目标网站在原有网页数据基础上更新一批数据
    • 表层网页:不需要提交表单,适用静态链接访问的静态页面。
    • 深层网页:不能通过静态链接直接获取,需要提交一定的关键词后才能获取到的页面。  

    参考:https://mp.weixin.qq.com/s/J8NYr1l64_kuUagLIGqUag

  • 相关阅读:
    hdu1069
    hdu1068
    假脱机
    什么是数据的备份与恢复
    DNS(Domain Name System) 域名系统
    Deepnet
    deepweb
    异地备份
    冷备份和热备份
    备份
  • 原文地址:https://www.cnblogs.com/smallzhen/p/14552878.html
Copyright © 2020-2023  润新知