目录
认识HBase
HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,该技术来源于Google论文“Bigtable:一个结构化数据的分布式存储系统”。利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。
HBase是Google Bigtable的开源实现,与Google Bigtable利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS作为其文件存储系统;Google 运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。
特点:
- 大:一个表可以有上亿行,上百万列。
- 面向列:面向列(族)的存储和权限控制,列(族)独立检索。
- 稀疏:对于空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。
前期准备
- HBase依赖于Zookeeper,所以要安装好Zookeeper
- 下载HBase。不同的Hadoop版本支持不同版本的HBase,可根据Hadoop版本在官方网站进行查询对应支持的HBase版本。官方地址
1. 解压HBase
#直接解压HBase压缩包
tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz -C /hadoop/app
2. 修改3个配置文件(配置文件目录:hbase-0.96.2-hadoop2/conf/
)
-
修改HBase运行环境变量,修改文件
hbase-env.sh
vim hbase-env.sh
#修改原文件中 #export JAVA_HOME=/usr/java/jdk1.6.0为
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
#关闭hbase自带的zk,使用外部zk
#将原文件中#export HBASE_MANAGES_ZK=true修改为
export HBASE_MANAGES_ZK=false
-
修改
hbase-site.xml
vim hbase-site.xml
<configuration>
<!-- 指定hbase在HDFS上存储的路径 -->
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
</property>
<!-- 指定hbase是分布式的 -->
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<!-- 指定zk的地址,多个用“,”分割 -->
<property>
<name>hbase.zookeeper.quorum</name>
<value>master:2181,slave1:2181,slave2:2181</value>
</property>
</configuration>
-
修改
regionservers
文件
vim regionservers
#清除原来内容,修改为
master
slave1
slave2
3. 将hadoop的hdfs-site.xml
和core-site.xml
放到hbase/conf
下
因为在hbase-site.xml
下指定了hdfs
文件系统的路径,所以要将这两个含有hdfs配置的文件做拷贝
#在hbase-0.96.2-hadoop2/conf/下执行以下命令
cp ~/app/hadoop-2.4.1/etc/hadoop/{core-site.xml,hdfs-site.xml} ./
4. 拷贝HBase到其他节点
scp -r hbase-0.96.2-hadoop2/ slave1:/home/hadoop/app
scp -r hbase-0.96.2-hadoop2/ slave2:/home/hadoop/app
5. 启动HBase
-
在三个节点上分别启动Zk
#在三个节点的zookeeper/bin目录下分别执行
./zkServer.sh start
-
启动HDFS
#在master节点上执行
start-dfs.sh
-
启动HBase(在主节点上运行,这里选master作为主节点)
#在HBase的bin目录下执行
./start-hbase.sh
6. 验证
- 若启动成功,在master上执行
jps
命令可查看到Hmaster
进程,在另外两个节点上执行jps
则可以查看到HRegionServer
进程 - 若启动成功,可通过浏览器访问HBase管理页面
192.168.1.201:60010
注:若
HMaster
进程启动不成功,首先分别在集群主机中使用date
命令,检查集群时间是否同步。然后检查/etc/hosts
文件,将127.0.0.1
的ip地址改为本地的真实地址,例192.168.1.201
7. 提高可靠性
HMaster
主要负责Table表
和HRegion
的管理工作,为保证集群的可靠性,要启动多个HMaster
.
#在slave1节点上,HBase的bin目录下执行
./hbase-daemon.sh start master
若启动成功,可在jps命令执行结果中查看到HMaster进程。