• crawler_爬虫开发的曲线图


    个人总结爬虫的学习曲线,可分为三个阶段, 

    一、 

        主要在填充基础知识,要熟悉http协议,学习正则表达式,首先基于jdk的基础包的网络功能,.net包下的  httpurlconnction 

    从细节上简单访问网络数据,进一步可以减去一些繁琐的封装功能(请求参数),使用httpClient (4.2.1)版本,处理的登录

    页面解析可以借助regex ,jsoup ,htmlparser ,建议使用正则(要求较高),数据的锁向性准确,性能高。

    二、

        融入架构的思想,考虑爬取性能,爬取道德,站点处理能力,设计实现分布式爬虫,异步下载,负载均衡。

    个人正在处在第二阶段

    三 、

        经过阶段二,一般商用爬虫都能应对,若打算进一步提高,java的垃圾回收,内存释放,注定性能比不上c,

    可根据个人兴趣,用c重写。

    不尽之处,欢迎沟通与交流 ,共同进步。

    爬虫技术交流_crawler  QQ群 :167047843

  • 相关阅读:
    初涉网络安全领域
    pythontip上的数据结构和算法练习题
    学c++需要先学c语言吗?
    田园将芜胡不归
    java学习视频
    微软越来越喜欢Github(转载)
    指针(一级指针、二级指针)
    数字盒子
    点结构Tpoint
    枚举类型
  • 原文地址:https://www.cnblogs.com/cphmvp/p/3304535.html
Copyright © 2020-2023  润新知