《HBase权威指南》学习笔记

《HBase权威指南》学习笔记
第一章简介

背景：

　　GFS：集群存储海量数据，数据在节点间冗余复制，即使一台存储服务器发生故障，也不会影响可用性。

　　GFS的缺点：适合存储少许非常大的文件，而不适合存储大量小文件，因为文件的元数据信息存储在主节点的内存中，文件越多主节点压力越大。

　　BigTable：RDBMS在大规模处理中有缺点，可以摒弃关系型的特点，采用简单API进行CRUD，再加一个扫描函数。

表，列，单元格：

　　基本单位是column

　　多column组成row

　　若干列组成列族(column family)

　　一个row有唯一rowkey

　　每个column有多个版本，每一个单元格可以保留若干版本的数据

　　行序是按照字典顺序进行排序的，row-10要小于row-2

列族的作用：
- 构建数据的语义边界或者局部边界
- 有助于设置压缩或者指示他们存储在内存中
- 一个列族的所有列存储在同一个底层存储文件里面，这个文件叫做HFile
列族使用注意点：
列族不能修改的太频繁，数量也不能太多，在当前的实现中如果列族大于几十个会出现bug，实际情况可能还小的多

引用列的格式为 family:qualifier , family 就是列族名， qualifier就是列名，比如 log:time 是获取 log这个列族中的time列，列是无限的可以达到几百万

列的时间戳：

每个列的时间戳有以下特性

默认由系统指定，也可以手动指定

可以通过不同的时间戳区分版本

单元格的版本：

用户可以指定每个值所能存储的最大版本数

支持谓词删除（predicate deletion）：比如只允许用户存储过去一周的值，不过这些值是未解释的字节数组

Hbase的一种应用场景：

　　webtable: 存储从互联网上抓取的网页。行键是反转的url比如org.hbase.www ，有一个用于存储HTML的列叫 contents,还有其他列族，比如 anchor，用户存储外向链接和入站链接，还有用于存储元数据的列列族language。

content列族用多版本来存储html，可以查询到旧的html。例如帮助分析页面变化频率就可以把时间戳设置成抓取页面的次数

自动分区：

Hbase中扩展和负载均衡的基本单元成为region

region是行键连续排列的存储区间

如果region太大就会动态拆分

如果region太小就会合并以节省空间

region相当于传统数据库的分区表

每台服务器上的region最好是10-1000个

region是怎么分区的：

一开始是有一个region，当这个region大到一定的值的时候就会从中间键（middle key,region中间的那个行键）处将这个region拆分为大致相等的两个子region。

一个region服务器可以有多个region。

Hbase不支持在线的region合并，但是可以离线合并

region的拆分非常快，接近于瞬间，因为并没有改变存储的位置

如果一个region server的负载过大会触发region迁移，它会将region迁移到别的region server上

存储API：

　　系统支持单行事务，进一步实现单行键下存储的数据的读-修改-写（read-modify-write）序列

　　单元格的值可以当计数器用，并且支持原子更新，意味着这个计数器可以在一个操作中实现读写，客户端可以基于此实现一个全局强一致的计数器

　　协处理器(coprocessor): 可以在服务器的地址空间执行来自客户端的代码。用于实现轻量级的批处理作业，或者使用表达式分析或者汇总数据

　　通过包装器可以将表转换成MapReduce的输入输出目标

实现：

数据存储在存储文件（store file）中，称为HFile：

HFile中的键值是经过排序的

文件内部是连续的块，块的索引信息存储在尾部

HFile被加载到内存中时，索引会优先加载到内存中

每个块默认是64KB

存储文件通常保存在HDFS中

每次更新数据的时候发生了什么：

数据记录到提交日志（commit log），在HBase中称之为预写日志（write-ahead log, WAL）(存储在HDFS系统上)

数据写入内存中的 memstore

写入的数据超过阀值，系统将这部分数据移出内存，作为HFile写入磁盘中

数据移出memstore，丢弃提交日志。采用滚动memstore可以实现不阻塞系统读写，即用空的新memstore获取更新数据，将旧的满的memstore转换成一个文件，由于memstore中的数据本来就排序好了，所以存储的时候不用再次排序

　　当记录被固化到HFile上之后，删除键值对并不是直接删除，而是做个删除标记delete marker。

　　查询结果是memstore+HFile的数据。

　　查询的时候用不到WAL，只有服务器内存中的数据在服务器崩溃前没有写入磁盘，而后进行恢复数据时才会用到WAL。

管家机制：

　　HFile过多的时候有管家机制来处理，合并有两种类型：

　　minor合并：多个小文件合并成一个大文件，由于是多路归并所以速度快

　　major压缩合并：将region中一个列族的若干个HFile重写为一个新HFile。合并扫描所有键值对，顺序重写所有数据，重写数据的过程中会略过做了删除标记的数据。断言删除此时生效。

　　master 负责负载均衡，将繁忙服务器中的region移到负载轻的服务器中

ZooKeeper：

　　ZooKeeper是一个可靠的，高可用的，持久化的分布式协调系统。

　　主服务器主要负责用ZooKeeper为region服务器分配region。

　　每台region服务器在Zookeeper中注册一个自己的临时节点，主服务器可以利用这些节点来跟踪机器故障和网络分区。

　　HBase还可以利用ZooKeeper确保只有一个主服务器在运行。

　　主服务器提供负载均衡和集群管理，将繁忙的服务器中的region移到负载较轻的服务器中。

　　主服务器不为region服务器或者客户端提供任何的数据服务，是个轻量级服务器。

HBase特点：

　　容量大：HBase可以存储海量数据：数十亿行 X 数百万列 X 数千个版本 = PB级存储

　　稀疏性：在传统关系型数据库中，null值是要占存储空间的。而在HBase中，允许表在存储时不存储null值，所以不会占存储空间。
相关阅读:
Python 向列表中添加元素
 [python] 查找列表中重复的元素
 Excel文件的读写
 Oracle EBS AP 取消付款
 Oracle EBS AP取消核销
 Oracle EBS AP 创建贷项通知单并核销到相应发票
 Oracle EBS AR 其他API
Oracle EBS AR 冲销收款
 Oracle EBS 银行账户API
Oracle EBS AR 客户API
原文地址：https://www.cnblogs.com/mengchunchen/p/8639495.html

《HBase权威指南》学习笔记

第一章 简介

背景：

表，列，单元格：

列族的作用：

列族使用注意点：

列的时间戳：

单元格的版本：

Hbase的一种应用场景：

自动分区：

region是怎么分区的：

存储API：

实现：

每次更新数据的时候发生了什么：

管家机制：

ZooKeeper：

HBase特点：

第一章简介