暑期总结8.13

经历多天的努力，hadoop的环境配置已经完成，编译器也能成功连接，下一步就是开始学习框架，第一个目标为WebMagic，这应该是比较简单好上手的java爬虫框架，先把这个搞懂，再以此为基础进行下一步。

　　今天对WebMagic进行了初步的概念上的认识，在此做个笔记。

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，我们只需要完成逻辑的设计即可快速开发出一个高效、易维护的爬虫。

流程图：

Downloader 负责从internet上下载页面，方便后续处理

PageProcesser负责解析网页和提取链接

Scheduler 负责管理待抓取的 URL 和去重。

Pipeline 负责结果数据的持久化,所谓持久化就是把数据进行贮存，保存在文件或是数据库中。

原文地址：https://www.cnblogs.com/liuleliu/p/13497478.html