A web crawler, written for speed, in JAVA and Clojure

A web crawler, written for speed, in JAVA and Clojure » A programmer's site
A web crawler, written for speed, in JAVA and Clojure » A programmer's site
A web crawler, written for speed, in JAVA and Clojure
十一长假就快要过去了，写的web crawler也告一段落：速度能达到大概下载8万网页/小时， CPU和Mem的使用都比较满意：运行40分钟的截图：
CPU， Mem使用
网络使用（4M带宽，已极限）
按status的分布
Crawler是Rss miner的一部分， git log查看，已零星5个月，这5个月的周末都耗在上面了，其中大部分在crawler上，数次大的重构或重写。
Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁，利用Java可以很好的组织多线程，面向对象 + functional，感觉很不错。
开始，我用Clojure了封装JDK 的 URLConnection, 由于Blocking，为了加快速度，需要使用多线程。
有一些问题，例如：
1. 线程少速度慢，线程多了内存受不了，我对内存较敏感，有一部分是想挑战自己，也有一部分是因为我的VPS只有512M内存，想在上面跑Rss miner, 包括一个Web server，一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法，筹划中….
2. URLConnection以Stream封装, 不是很方便。
3. 如果各个线程分别自己保存自己下载的数据， Disk可能比较辛苦。如果用Queue送给单独的一个线程处理，又有一个额外的线程开销。
我寻找 Non-blocking的Http Client，试用了两个，都不太满意，自己写了一个，注重性能和稳定性。
实现：
- 4个线程，每个线程都是一个Loop，相互之间是Producer， Consumer的关系，通过Queue和Event交流
- 管理状态比较多的，用Java实现，比如用Tagsoup抽取链接和文本，通过规则排除部分URL
- DNS prefetch, Pdnsd做DNS cache： UDP提前发送Query请求，忽略结果。
- Java搭了一个简单的框架，提供两个Interface, 由Clojure实现
public interface IHttpTask { URI getUri(); Map<String, Object> getHeaders(); Object doTask(HttpResponse response) throws Exception; Proxy getProxy(); }
public interface IHttpTaskProvder { List<IHttpTask> getTasks(); }
相关阅读:
内蒙古草原之行
 【iOS开发笔记25/50】：正则表达式
 读书笔记：《写给大家看的设计书》
【iOS开发笔记22/50】：恼人的a valid provisioning profile for this executable was not found错误
 【搞定GTD】打造高效的OmniFocus系统
 【iOS开发笔记24/50】调整UIImage的大小
 【iOS开发笔记26/50】我自己写的苹果应用程序XQViewer终于上架了，解决了一系列的问题，终于挺过来了
 桥牌笔记：双挤
 养成一个习惯需要几年，而毁掉一下习惯只需要一天
 使用SuperMemo背单词2000天，抓图纪念一下！
原文地址：https://www.cnblogs.com/lexus/p/2878046.html

A web crawler, written for speed, in JAVA and Clojure » A programmer's site

CPU， Mem使用

网络使用（4M带宽，已极限）

按status的分布

有一些问题， 例如：

实现：

有一些问题，例如：