HBase基本知识和应用场景

HBase基本知识和应用场景

✿ 诞生背景：

hadoop局限性： Hadoop 只能执行批量处理，并且只以顺序方式访问数据。

✿ hadoop实际应用之一：Hadoop+HBase（随机高效读取）建立NoSQL分布式数据库应用

一、HBase（HBase以表的形式存储数据，表有行和列组成。）

1，什么是HBase？

HBase是一个分布式的、面向列的开源数据库。本质是一个数据库（适用于分布式的数据库，它面向列）。

HBase 结构，首先是一张表结构，然后与一般表不同的是，一般表：同一个列名下的那些一个个的单元格的值类型是相同的，而 HBase表是同一个列名下的那些一个个的单元格的值类型是不同，且数量不同...
（相比于传统表，同列名下的一个个单元格，hbase 的单元格内容，可以装不定长的数据（一些以键值对形式存储的数据，一些则直接也是单个值的形式））

✿ 传统表：单元格 是一个坑一个萝卜
✿ HBase表：单元格 是一个坑 一把花生 （花生有双仁、单仁的哦）

（图：传统的表）

（图2：HBase 表）

列族里的数据通过列限定符或列来定位，

通过列限定符来定位例如：Sname:nickName，Sage:female 等等；通过列来定位 的例如：Sname：小红

2，HBase 中的表特点：

（1）大：一个表可以有上十亿行，上百万列

（2）面向列：列可以灵活指定，面向列(族)的存储和权限控制，列(簇)独立检索。

（3）稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

（4）无严格模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列

3.1，HTable一些基本概念1

☺ 在HBase中，HTable是其客户端和服务端通信的java api对象，主要提供对表的put/get/delete/scan等操作

创建一个 hBase 对象：

Configuration conf = HBaseConfiguration.create();

HTable hTable = new HTable(conf, "tableName");

② HTable 的增删改查,这里简单举几个例子

●获取指定行某些单元格对应的值：public Result get(final Get get) throws IOException

●获取表名：public byte [] getTableName()

●添加值：public void put(final Put put) throws IOException

●删除指定单元格/行：void delete(Delete delete) throws IOException

．．．．．．

ps： HBase Java API 代码开发

常用的几个主要HBase API类和数据模型之间的对应关系：

3.2， HTable一些基本概念2 【表结构逻辑视图】

表：HBase用表来组织数据。

行：在表里，数据按行存储，行由行键唯一标识。行键没有数据类型，为字节数组byte[]。

列族：行里的数据按照列族分组，列族必须事先定义并且不轻易修改。表中每行拥有相同的列族。

列限定符：列族里的数据通过列限定符或列来定位，列限定符不必事先定义。

单元：存储在单元里的数据称为单元值，值是字节数组。单元由行键，列族或列限定符一起确定。

时间版本：单元值有时间版本，是一个long类型。

1、行键（RowKey）：

① 通过单个 row key 访问
② 通过 row key 的 range
③ 全表扫描

2、列簇（Column Family）：

HBase 表中的每个列，都归属与某个列簇。列簇是表的 Schema 的一部分(而列不是)
列名都以列簇作为前缀。例如：student：name，student：age，teacher：age 等等（例子在文章最后的图1）
访问控制、磁盘和内存的使用统计等都是在列簇层面进行的。
列簇越多，在取一行数据时所要参与 IO、搜寻的文件就越多，所以，如果没有必要，不要设置太多的列簇，官网推荐是小于等于 3（最好就一个列簇）

3、时间戳（TimeStamp）：

■ 时间戳可以由 HBase (在数据写入时自动)赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。

■ 每个单元格都保存着同一份数据的多个版本。版本通过时间戳来索引。

■ 如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。

■ 每个单元格中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。HBase 在查询的时候，默认返回最新版本/最近的数据。如果需要读取旧版本的数据，可以指定时间戳。

□ 为了避免数据存在过多版本造成的的管理(包括存储和索引)负担，HBase 提供了两种数据版本回收方式：
　　保存数据的最后 n 个版本
　　保存最近一段时间内的版本（设置数据的生命周期 TTL）。
　　用户可以针对每个列簇进行设置。

4、单元格（Cell）：

■ 由{RowKey, Column( =<Column Family> + <Qualifier>), Version} 唯一确定的单元。Cell 中的数据是没有类型的，全部是字节码形式存储。

二、HBase 的安装和应用

对应于Hadoop，HBase 也有三种运行模式：单机模式、伪分布式模式、分布式模式。

..........(安装过程遇到的bug，请参考文章)《HBase 安装之后版本的验证的bug：（错误的替换、找不到或无法加载主类、SLF4J）》

附录

图1：HBase 表结构

图2：列名以列簇作为前缀的例子

列族里的数据通过列限定符或列来定位，

通过列限定符来定位例如：Sname:nickName，Sage:female 等等；通过列来定位 的例如：Sname：小红

参考文章：

《Hbase总结（五）-hbase常识及habse适合什么场景》https://blog.csdn.net/lifuxiangcaohui/article/details/39894265

《hBase之HTable踩坑》https://www.jianshu.com/p/8f5fad6d7c9c　

《HBase基础知识》https://blog.csdn.net/qq_1018944104/article/details/85013790

《HBase 的Get(读)，Put(写)，Delete(删)，Scan(扫描)和Increment(列值递增)》https://www.cnblogs.com/wangleBlogs/p/9935553.html

相关阅读:
webpack : 无法加载文件 D: odejs ode_globalwebpack.ps1，因为在此系统上禁止运行脚本。
TypeError: __WEBPACK_IMPORTED_MODULE_0_react___default.a.createContext is not a function报错处理
 React中import的用法
 antd-react-mobile(踩坑记录)
[转][C#]BarCodeToHTML
[转][C#]Environment 类
 [转][easyui]右键菜单
 [转][C#]Web.config 相关配置
 [转]模拟键盘输入
 python3 的 zip
原文地址：https://www.cnblogs.com/shan333/p/15386256.html