• Hadoop(四)C#操作Hbase


    Hbase

    Hbase是一种NoSql模式的数据库,采用了列式存储。而采用了列存储天然具备以下优势:

    1. 可只查涉及的列,且列可作为索引,相对高效
    2. 针对某一列的聚合及其方便
    3. 同一列的数据类型一致,方便压缩

    同时由于列式存储将不同列分开存储,也造成了读取多列效率不高的问题

    LSM Tree

    说到HBase,我们不得不说其采用的LSM Tree。我们都知道关系数据库中常用的B+Tree,叶子节点有序,但写入时可能存在大量随机写入,因此形成了其读快写慢的特点。

    而HBase采用了LSM Tree,在读写之间寻找了平衡,损失了部分读取的性能,实现了快速的写入。LSM具体实现如下:

    1. 写入WAL日志中(防止数据丢失),同时数据写入内存中,内存中构建一个有顺序的树,HBase采用跳表结构。
    2. 随着内存中数据逐渐增大,内存中flush到磁盘,形成一个个小树。
    3. 磁盘中的小树存在数据冗余,且查询时遍历多个小树效率低,LSM定期合并,实现数据合并,而合并的时候,会对数据重新排序,优化读取性能。

    HBase架构

    HBase中三个核心的Server形成其分布式存储架构。

    1. RegionServer:负责客户端读写请求,客户端直接与其通信
    2. HBaseMaser:负责维护RegionServer;表结构的维护
    3. Zookeeper:维护集群状态

    HBase读写操作步骤

    1. 客户端从zookeeper获取哪台RegionServer存储MetaTable(一张特殊表,存储了所有region信息)。
    2. 客户端查询MetaTable所在的RegionServer,获取哪台RegionServer应负责此次操作的rowKey
    3. 客户端访问对应的RegionServer实现数据读取

    RegionServer的组成

    1. WAL:Write Ahead Log,用于存储写操作的日志,用于故障恢复
    2. BlockCache:读缓存,用于缓存最常访问数据
    3. MemStore:写缓存,会定期flush到磁盘
    4. HFile:在HDFS上存储数据,以有序keyvalue形式存储

    HBase存储机制

    1. 表是行的集合。
    2. 行是列家族的集合。
    3. 列家族是列的集合。
    4. 列是键值对的集合。

    HBase安装

    1.下载Hbase2.4.11

    https://hbase.apache.org/downloads.html

    2.解压

    tar -zxvf hbase-2.4.11-bin.tar.gz

    3.修改环境变量

    cat conf/hbase-env.sh
    export JAVA_HOME=/usr/local/java18/jdk1.8.0_331/

    4.修改hbase存储位置

    cat conf/hbase-site.xml
      <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
      </property>
    <property>
       <name>hbase.rootdir</name>
       <value>hdfs://localhost:9000/hbase</value>
    </property>

    5.启动Hbase

    ./bin/start-hbase.sh 

    6.验证Hbase

    http://192.168.43.50:16010/master-status

    7.停止Hbase

    ./bin/stop-hbase.sh

    HBase Shell访问HBase

    官方文档:https://hbase.apache.org/book.html#shell

    1.进入shell

    ./bin/hbase shell

    2.查看表

    hbase:001:0> list

    3.创建表

    #create ‘<table name>’,’<column family>’
    
    hbase:001:0> create 'emp', 'personal data', 'professional data'
    Created table emp
    Took 3.4810 seconds
    => Hbase::Table - emp

    4.创建/更新数据

    #put ‘table name’,’row ’,'Column family:column name',’new value’
    
    hbase:001:0> put 'emp','1','personal data:name','raju'
    Took 1.1807 seconds

    5.查看数据

    hbase:001:0> scan 'emp'
    ROW                                                    COLUMN+CELL
     1                                                     column=personal data:name, timestamp=2022-05-02T09:55:38.861, value=raju
    1 row(s)
    Took 1.1758 seconds
    #get ’<table name>’,’row1’
    
    
    hbase:002:0>  get 'emp', '1'
    COLUMN                                                 CELL
     personal data:name                                    timestamp=2022-05-02T09:55:38.861, value=raju
    1 row(s)
    Took 1.3090 seconds

    6.删除数据

    #delete ‘<table name>’, ‘<row>’, ‘<column name >’, ‘<time stamp>’
    
    hbase:001:0> deleteall 'emp','1'
    Took 0.9424 seconds

    C#访问Hbase

    C#访问Hbase可以根据thrift文件自己生成响应rpc client代码,通过rpc方式访问。

    https://github.com/apache/hbase/tree/master/hbase-thrift/src/main/resources/org/apache/hadoop/hbase

    也可以启动rest server通过微软的Microsoft.Hbase.Client访问,我们这次使用rest方式访问。

    1.启动与关闭rest server

    ./bin/hbase-daemon.sh start rest
    ./bin/hbase-daemon.sh stop rest

    可通过访问http://192.168.43.50:8080/version/cluster验证rest是否启动成功

    2.新增console项目,引入Microsoft.Hbase.Client包

    https://github.com/hdinsight/hbase-sdk-for-net

    3.编写测试demo

    using Microsoft.HBase.Client;
    using Microsoft.HBase.Client.LoadBalancing;
    using org.apache.hadoop.hbase.rest.protobuf.generated;
    
    var scanOptions = RequestOptions.GetDefaultOptions();
    scanOptions.Port = 8080;
    scanOptions.AlternativeEndpoint = "/";
    var nodeIPs = new List<string>();
    nodeIPs.Add("192.168.43.50");
    var client = new HBaseClient(null, scanOptions, new LoadBalancerRoundRobin(nodeIPs));
    var version = client.GetVersionAsync().Result;
    Console.WriteLine(version);
    
    var testTableSchema = new TableSchema();
    testTableSchema.name = "mytablename";
    testTableSchema.columns.Add(new ColumnSchema() { name = "d" });
    testTableSchema.columns.Add(new ColumnSchema() { name = "f" });
    client.CreateTableAsync(testTableSchema).Wait();

    通过hbase shell验证表是mytablename否创建成功

    hbase:001:0> list
    TABLE
    emp
    mytablename
  • 相关阅读:
    一个关于状态机的问题
    8位同步码修改变4位同步码
    BT1120时序,可以用于自测用
    欧几理德,扩展欧几里德和模线性方程组。
    "旋转的风车"----windows(GDI)绘图
    草滩小恪的学习链接(汇总版)
    酒鬼随机漫步(一个矢量类)
    小题精炼-----初试C语言
    大二(上)------我欠青春一份疯狂
    HDU 1027 Ignatius and the Princess II(康托逆展开)
  • 原文地址:https://www.cnblogs.com/chenyishi/p/16216585.html
Copyright © 2020-2023  润新知