一、WebMagic的四个组件
1.Downloader
Downloader负责从互联网上下载页面,默认使用apache HttpClient作为下载工具
2.PageProcessor
负责解析页面,抽取有用的信息,以及发现新的链接,默认使用Jsoup作为HTML解析工具,并基于其开发了
解析XPath的工具Xsoup。
3.Scheduler
负责管理抓取待抓取的URL,并做一些去重的工作,默认使用JDK内存队列来管理URL,并用集合进行去重。也支持redis的分布式管理。
4.Pipeline
负责抽取结果的处理,包括计算,持久化到文件,数据库等。如要要保存到指定数据库,则需要编写对应的Pipeline。