• Ubuntu环境下nutch2.2.1集成HBase0.94.25


    nutch2.2.1集成HBase0.94.25

    (详见:http://duguyiren3476.iteye.com/blog/2085973 )

    1. 修改nutch的hbase配置

    //将自己的hbase配置copy到nutch配置中
    cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/  
    

    2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)

    原因:(我使用的hbase时0.94.25)

    nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90

    如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:

    java.lang.IllegalArgumentException: Not a host:port pair 
    

     如果直接使用hbase0.94操作自己安装的hbase0.94,报错:

    java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V  
    

     解决办法:

    使用0.92.2hbase的jar文件

    3. 抓取

      (1)设置抓取地址

    cd runtime/local/  
    mkdir -p urls  
    sudo gedit urls/seed.txt   
    

     在seed中填入你要抓取的地址:比如:http://www.apache.org/

      (2)将urls放到hdfs系统中

    hadoop fs -copyFromLocal urls /home/hadoop/urls  
    

       (3)运行nutch,并把结果放到hbase

    nutch inject /home/hadoop/urls
    

       (4)查看hbase

    hbase shell
    
    //进入shell后
    list
    

     如果出现 “webpage” 则成功。

      (5)

    nutch  generate -topN 3  
    nutch fetch -all  
    nutch parse -all  
    nutch updatedb  
    

       (6)进入hbase查询

  • 相关阅读:
    python高级语法
    python的内置类型
    Python现状
    前端项目技术栈
    1.22
    类型转换!
    文件上传下载!
    Struts2的Ognl详解
    第二章复习
    解耦和耦合
  • 原文地址:https://www.cnblogs.com/xxx0624/p/4176199.html
Copyright © 2020-2023  润新知