-
讯速开源分布式定向采集系统(hitask)
讯速分布式定向采集系统(hitask)
讯速开源分布式定向采集系统(hitask)
欢迎加入开源搜索引擎QQ讨论群:1831546 合作洽谈QQ:4451310 检索系统介绍
源码下载
学习资料
目录
系统简介
采集流程
配置运行
测试实例
展开
任何疑问请提交官方微博http://weibo.com/sounos或者邮箱sounos@gmail.com
系统简介
讯速分布式定向采集系统(hitask)是一个开源的数据采集系统, 开发始于2008年,早期版本属于实验版本仅仅支持数据采集功能, 不能精准的抽取网页内容,在此基础上发展的分布式采集系统具备多节点同时采集功能, 同时支持模版的方式抽取内容, 大大提高系统的可用性和网络带宽利用率. 基础通信库使用libsbase, 字符集识别使用libcharset(C++), 核心代码全部由纯C语言实现, 采用面向对象设计思想. 运行于类unix系统linux/BSD,主要功能点如下:
异步DNS解析
URL排重
支持HTTP 压缩编码传输 gzip/deflate
字符集判断自动转换成UTF-8编码
文档压缩存储
支持多下载节点分布式下载
下载任务控制(可停止和恢复任务),指定url优先下载,指定host优先下载
采集流程
从中心节点取URL(包括URL对应的任务号, IP和port,也可能host需要任务节点自己解析)
连接服务器发送请求
等待数据头判断是否需要的数据(目前主要取text类型的数据)
等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)
数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息
中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.
完成后返回一个新的任务.
配置运行
下载最新版hitask: http://code.google.com/p/hispider/downlgads/list
程序依赖包 zlib pcre libcharset libevbase libsbase
测试实例数据包 http://hispider.googlecode.com/files/hitask.tar.gz
下载解压到指定目录下一个后更改 /etc/hitaskd.ini 里的配置路径 "hibasedir" 为解压后的路径.
服务启动:
/usr/local/bin/hitaskd -d -c /usr/local/etc/hitaskd.ini
/usr/local/bin/hitask -d -c /usr/local/etc/hitask.ini
测试实例
服10.管理URL-添加种子
-
相关阅读:
Atitit orm 之道 艾龙著 1. 一、ORM的由来 1 2. ORM的组成: 2 3. 常见的ORM框架: 3 4. 、ORM与数据持久化的关系 3 5. Atitit
Atitit 移动互联网 产业维度 1. 移动互联网带来的模式变革 1 2. 从视窗到“苹果与机器人”,软件发展模式的颠覆 2 3. 第3章 从X86到ARM,蚂蚁绊倒了大象 2 4. 第5
Atitit 装备工具分类 attilax总结 艾龙著 工具链体系 武器与软件行业工具也是很近似的的。 1. 分类思维 1 1.1. 总分类:冷、热 1 1.2. 轻、重、大规模杀伤性 1
Atitit 区块链之道 attilax著 艾龙著 1. 金融=制度+技术+信息 1 2. 第一章可信的协议 1 3. 第二章引导未来:区块链经济七大设计原则 1 4. 第五章 新商业
Atitit 几大研发体系对比 StageGate体系 PACE与IPD体系 敏捷开发体系 CMMI体系 艾龙 著 1. 3. 1.5:业界领先的研发管理体系简介 2 1 2. 《产品及生命周期
Atitit 传感器之道 1. 视觉传感器 摄像头 1 1.1. 一、光线传感器: 1 1.2. 二、距离传感器: 1 1.3. 第一种是震动传感器。 4 1.4. 第二种是声响传感
Atitit 架构之道 之 可读性可维护性架构之道 提升效率架构之道 attilax著 艾龙 著 1.1. Hybrid架构 1 1.2. 分层架构是使用最多的架构模式 Layers模式 也称Tie
Atitit cko之道首席知识官之道 attilax著 艾龙著 1. 2 2. 第 1 章 知识管理到底是什么,有什么用/1 2 3. 1.1 知识管理全景/1 1.2 波士顿矩阵/3 1.2.
Atitit 提升效率 降低技术难度与提升技术矛盾的解决方案 1. 问题 2 1.1. 高手喜欢技术挑战怎么办,但会提升技术难度 导致新手不会用怎么办 2 2. 解决方案 2 2.1. 通过开会统
Atitit 依赖管理之道 1. 概念 依赖管理,是指在什么地方以什么形式引入外部代码。 1 1.1.1. 理解模块化和依赖管理: 1 1.2. 依赖管理,有三个层面。 单一职责原则,协议对象引用,
-
原文地址:https://www.cnblogs.com/lexus/p/2410142.html
Copyright © 2020-2023
润新知