• Nutch


    Nutch 

    介绍

    Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。

    Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要从这里下载一个二进制的发行版即可。

    步骤

    • 这篇教程描述了Nutch 1.x(当前版本是1.6)的安装和使用。关于如何编译和安装Nutch 2.x,请查看Nutch2Tutorial

    1.从二进制发行包安装Nutch

    • 这里下载二进制包(apache-nutch-1.X-bin.zip)。
    • 解压缩您的Nutch包。那应该会有一个新文件夹apache-nutch-1.X
    • cd apache-nutch-1.X/

    从现在开始,我们将会使用${NUTCH_RUNTIME_HOME}来代替当前目录(apache-nutch-1.X/)。

    从源代码安装Nutch

    高级用户也可能会使用源代码发行包:

    • 下载一个源代码包(apache-nutch-1.X-src.tar.gz
    • 解压缩
    • cd apache-nutch-1.X/
    • 在这个目录里运行ant(参见:RunNutchInEclipse
    • 现在那会有一个目录runtime/local,它包含了准备使用的Nutch安装

    当使用源代码包时,我们会用${NUTCH_RUNTIME_HOME}代替目录apache-nutch-1.X/runtime/local/。记住这些:

    • 配置文件在apache-nutch-1.X/runtime/local/conf/目录里面
    • ant clean将会移除这个目录(并保留被更改的配置文件的备份)

    2.检验您的Nutch安装

    • 运行”bin/nutch“。如果您能看见下列内容说明您的安装是正确的:

    Usage: nutch [-core] COMMAND

    一些解决问题的提示:

    • 如果您看见”Permission denied”那么请运行下列命令:

    chmod +x bin/nutch

    • 如果您看见JAVA_HOME没有设置那么请设置JAVA_HOME环境变量。在Mac上,您可以运行下述命令或者把它添加到~/.bashrc里面去:

    export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Home

  • 相关阅读:
    拼接表达式树的原理
    ql Server 2012完全卸载方法
    jquery tmpl 详解
    Entity Framework(EF) Code First将实体中的string属性映射成text类型的几种方式
    Entity Framework 数据生成选项DatabaseGenerated
    Entity Framework 复杂类型
    EF Code First 学习笔记:约定配置
    比特币转账流程
    mmap 的理解
    copy_to_user,copy_from_user,get_user,put_user函数比较
  • 原文地址:https://www.cnblogs.com/anpajin/p/6366251.html
Copyright © 2020-2023  润新知