• 一个方便易用的爬虫框架


    本文转载至  http://www.tuicool.com/articles/VZBj2e

    原文  http://itindex.net/detail/52388-框架

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

    官方网站  http://webmagic.io/

    webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。

    web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,webmagic不会做反封锁的事情,包括:验证码破解、代理切换、自动登录等。

    webmagic的主要特色:

    • 完全模块化的设计,强大的可扩展性。
    • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
    • 提供丰富的抽取页面API。
    • 无配置,但是可通过POJO+注解形式实现一个爬虫。
    • 支持多线程。
    • 支持分布式。
    • 支持爬取js动态渲染的页面。
    • 无框架依赖,可以灵活的嵌入到项目中去。

    http://git.oschina.net/flashsword20/webmagic#readme

  • 相关阅读:
    自学Java0711
    自学Java0710
    自学Java0709
    自学Java0708
    Leetcode刷题集
    网站收集
    674. 最长连续递增序列『简单』
    680. 验证回文字符串 Ⅱ『简单』
    686. 重复叠加字符串匹配『简单』
    693. 交替位二进制数『简单』
  • 原文地址:https://www.cnblogs.com/Camier-myNiuer/p/4201609.html
Copyright © 2020-2023  润新知