• 新闻实时分析系统-HBase分布式集群部署与设计


    HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。

    HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bigtable中的海量数据, HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable 利用Chubby作为协同服务, HBase 利用Zookeeper作为对应。

    1.下载HBase并安装

     

    1)下载Apache版本的HBase。

    2)下载Cloudera版本的HBase。

    3)这里选择下载cdh版本的hbase-0.98.6-cdh5.3.0.tar.gz,然后上传至bigdata-pro01.kfk.com节点/opt/softwares/目录下

    4)解压hbase

    tar -zxf hbase-0.98.6-cdh5.3.0.tar.gz -C /opt/modules/

    2.分布式集群的相关配置

    1)HBase架构体系

     

    a.Zookeeper

    Zookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址,HRegionServer也会把自己以Ephemeral方式注册到Zookeeper中,使得HMaster可以随时感知到各个HRegionServer的健康状态。此外,Zookeeper也避免了HMaster的单点问题。

    b.HBase Master

    每台HRegion服务器都会和HMaster服务器通信,HMaster的主要任务就是要告诉每台HRegion服务器它要维护哪些HRegion。   当一台新的HRegion服务器登录到HMaster服务器时,HMaster会告诉它先等待分配数据。而当一台HRegion死机时,HMaster会把它负责的HRegion标记为未分配,然后再把它们分配到其他HRegion服务器中。

    c.HRegionServer

    HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。 

    2)HBase集群规划

     

    3)分布式集群相关配置

    a.hbase-env.sh

    #配置jdk

    export JAVA_HOME=/opt/modules/jdk1.7.0_67

    #使用独立的Zookeeper

    export HBASE_MANAGES_ZK=false

    b.hbase-site.xml

    <configuration>

            <property>

                   <name>hbase.rootdir</name>

                   <value>hdfs://ns/hbase</value>

            </property>

            <property>

                   <name>hbase.cluster.distributed</name>

                   <value>true</value>

            </property>

            <property>

                   <name>hbase.zookeeper.quorum</name>

                   <value>bigdata-pro01.kfk.com,bigdata-pro02.kfk.com,

                           bigdata-pro03.kfk.com</value>

            </property>

    </configuration>

    c.regionservers

    bigdata-pro01.kfk.com

    bigdata-pro02.kfk.com

    bigdata-pro03.kfk.com

    d.backup-masters

    bigdata-pro02.kfk.com

    4)将hbase配置分发到各个节点

    scp -r hbase-0.98.6-cdh5.3.0 bigdata-pro02.kfk.com:/opt/modules/

    scp -r hbase-0.98.6-cdh5.3.0 bigdata-pro03.kfk.com:/opt/modules/

    3.启动HBase服务

    1)各个节点启动Zookeeper

    zkServer.sh start

    2)主节点启动HDFS

    bin/start-dfs.sh

    3)启动HBase

    bin/start-hbase.sh

    4)查看HBase Web界面

    bigdata-pro01.kfk.com:60010/

    如果各个节点启动正常,那么HBase就搭建完毕。

    4.通过shell测试数据库

    1)选择主节点进入HBase目录,启动hbase-shell

    cd hbase-0.98.6-cdh5.3.0

    bin/hbase-shell

    2)查看所有表命令

    list

    3)使用help帮助命令

    help

    4)创建表

    create 'test','info'

    5)添加数据

    put 'test','0001','info:userName','laocao'

    6)全表扫描数据

    scan 'test'

    7)查看表结构

    describe 'test'

    8)删除表

    disable 'test'

    drop 'test'

    5.根据业务需求创建表结构

    1)下载数据源文件

    2)HBase上创建表

    create 'weblogs','info'

  • 相关阅读:
    idae修改默认maven全局设置以及maven的设置
    LINUX 基本察看命令
    tar解压bz2文件报错
    kafka和zookeeper集群部署
    elasticsearch集群部署和kibana插件部署
    tomcat JVM调优
    搭建zookeeper集群的坑
    判断链表是否有环,以及求出入环节点
    判断一个数是否是完全二叉树
    堆排序
  • 原文地址:https://www.cnblogs.com/misliu/p/10942584.html
Copyright © 2020-2023  润新知