• 网络爬虫类型


    一:通用网络爬虫:
    (1).从种子url爬取扩展到整个Web页面。

    (2).这类网络爬虫爬取的范围巨大,爬取的数量巨大,对爬取速度和存储空间要求比较高,一般采用并行工作的方式。但是需要较长的时间才可以刷新页面。

    (3).通用网络爬虫结构致页面爬行模块 、页面析模块、链接滤模块、页面数据库、URL 队列、初始 URL 集合几部分。

    (4).通用网络爬虫采取定爬行策略 用爬行策略:深度优先策略、广度优先策略
    二:聚焦网络爬虫:
    (1).主题网络爬虫(Topical Crawler)指选择性爬行些与预先定义主题相关页面网络爬虫 。

    (2).聚焦爬虫需要爬行与主题相关页面极节省硬件网络资源保存页面由于数量少更新快满足些特定群特定领域信息需求。
    (3).基于内容评价爬行策略:Fish Search 算法:根据用户输入查询词作主题包含查询词页面视与主题相关其局限性于评价页面与主题相关度高低。 
       基于链接结构评价爬行策略 :PageRank 算法:查询结进行排序,具体做法就是每次选择 PageRank 值较大页面链接来访问 。
       基于增强习爬行策略搜索:Rennie  McCallum 增强习引入聚焦爬虫利用贝叶斯类器根据整网页文本链接文本超链接进行类每链接计算重要性决定链接访问顺序。
       基于语境图爬行策略:Diligenti 等提种通建立语境图(Context Graphs):该爬虫主题定义既采用关键词加权矢量组具相同主题网页 。

    三:增量式网络爬虫:
        指已下载网页采取增量式更新爬行新产或者已经发变化网页爬虫能够定程度保证所爬行页面尽能新页面。
        增量式爬虫两目标:保持本页面集存储页面新页面提高本页面集页面质量。

    四:Deep Web 爬虫
      爬行控制器、解析器、表单析器、表单处理器、响应析器、LVS 控制器)两爬虫内部数据结构(URL 列表、LVS 表)
      Deep Web 爬虫爬行程重要部表单填写。



     
     
     


  • 相关阅读:
    java中高级软件工程师面试总结
    失败的面试经历
    解决webstorm打开包含node_modules项目卡死问题
    通俗易懂的理解javascript闭包
    javascript实现silverlight pivotViewer控件
    javascript面向对象
    吐槽一下万网空间
    html5的Canvas
    前端CSS兼容的一些思路
    Win10 Ubuntu子系统访问Windows目录
  • 原文地址:https://www.cnblogs.com/mvc-ef/p/8017800.html
Copyright © 2020-2023  润新知