大数据存储基石进一步学习

大数据存储基石进一步学习

一：基本信息

1.Hbase是什么

　　2006年，Google公布了BigTable论文，BigTable是一种构建于GFS和 MapReduce之上的多维稀疏图管理工具。

　　正是这三篇论文，掀起了开源软件的大数据热潮。人们根据GFS，开发出了HDFS 文件存储。MapReduce计算框架，也成了海量数据处理的标准。而HDFS与 MapReduce结合在一起，形成了Hadoop。而BigTable更是启发了无数的NoSQL 数据库。而HBase正是继承了正统的BigTable思想。所以，Hadoop+HBase是模拟了Google处理海量网页的三大基石实现的，他们也就成了开源大数据处理的基石。

2.数据结构

　　HBase也可以作为一个数据库使用，但是为了应对海量数据，他存储数据的方式与我们理解的传统关系型数据库有很大的区别。虽然他也有表、列这样的逻辑结构，但是整体上，他是以一种k-v键值对的方式来存储数据的。

　　

　　纵向来看，HBase中的每张表由Rowkey和若干个列族或者称为列簇组成。其中 Rowkey是每一行数据的唯一标识，在对数据进行管理时，必须自行保证Rowkey的唯一性。接下来HBase依然会以不同的列来管理数据，但是这些列分别归属于不同的列簇。在HBase中，同一张表的数据，只需要保证列簇是相同的，而列簇下的列，可以是不相同的。所以由此可以扩展出非常多的列。在HBase中，对于同一张表，不建议定义过多的列簇，通常不要超过三个。而更多的数据，可以以列的方式来扩展。

　　从横向来看，HBase中的记录，会划分为一个一个的Region，存储在不同的 RegionServer上。并且会在不同的RegionServer之前形成备份，以Region为单位提供了故障后自动恢复的机制。

　　最后，从整体来看，HBase虽然还是以HDFS作为文件存储，但是他存储的数据不再是简单的文本文件，而是经过HBase优化压缩过的二进制文件，所以他的存储文件通常是不能够直接查看的。

3.基础架构

　　

　　其中，

　　client客户端包含了访问HBase的接口，另外也维护了对应的缓存来加速对 HBase的访问。

　　RegionServer直接对接用户的读写请求，是真正干活的节点。他会将数据以 StoreFile的形式存储到不同的HDFS目录中。

　　HMaster主要是维护一些集群的元数据信息，同时监控RegionServer的服务状态，并且通过Zookeeper提供集群服务，向客户端暴露集群的服务端信息。

二：基本操作

1.
相关阅读:
CG_Lession
linux学习网站大全[转]
C++ books
Linux 建议学习路径[转]
talking C++ STL
Factory
计算机图像图形学相关好书推荐
 ASP.NET控件缩写大全
 web开发面试题一
 ASP.Net面试题之二
原文地址：https://www.cnblogs.com/juncaoit/p/16163187.html

大数据存储基石进一步学习

一：基本信息

二：基本操作