Nutch系列1：简介

由Java实现的，开放源代码(open-source)的web搜索引擎。

Nutch 致力于让每个人都能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

Nutch主要分为两个部分:爬虫crawler和查询searcher。

Crawler主要用于从网络上抓取网页并为这些网页建立索引。

Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。

Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升性能。

Nutch是基于Lucene的。

那么我们应该使用Lucene还是Nutch呢？

最简单的回答是：如果你不需要抓取数据的话，应该使用Lucene。

比如你有数据源，需要为这些数据提供一个搜索页面。在这种情况下，最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。

而当你没有本地数据源，或者数据源非常分散的情况下，应该使用Nutch。

艺搜参考

相关阅读:
AIX6.1 线程模型说明
多线程专题之线程死锁原因之谜
多线程执行顺序诡异现象谈，你不知道的pthread_create
SOA体系结构基础培训教程-规范标准篇
C# AES要解密的数据的长度无效
winform命名规范
winform 打开一个窗体，关闭一个窗体
VS2017专业版和企业版激活密钥
AES五种加密模式
c#POST请求php接口

原文地址：https://www.cnblogs.com/elesos/p/9335216.html