Hadoop是一个分布式系统基础架构,他使得用户可以在不了解分布式底层细节的情况下,开发分布式程序。
Hadoop的重要核心:HDFS和MapReduce。HDFS负责储存,MapReduce负责计算。
下面介绍安装Hadoop的重点:
其实安装Hadoop也不麻烦,主要需要以下的几点先行条件,如果以下先行条件弄好了,按照官网配置启动就非常简单了。
1、Java运行环境,建议Sun的发行版
2、SSH公钥免密认证
以上环境搞定,剩下的就只是Hadoop的配置了,这部分配置不同版本或许有不同,详细参照官方文档说明。
环境
虚拟机:VMWare10.0.1 build-1379776
操作系统:CentOS7 64位
安装Java环境
下载地址:http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk8-downloads-2133151-zhs.html
根据自己的操作系统版本选择相应的下载包,如果是支持rpm包的,直接下载rpm,或者使用rpm地址
rpm –ivh http://download.oracle.com/otn-pub/java/jdk/8u20-b26/jdk-8u20-linux-x64.rpm
JDK会持续更新,所以安装最新版本的JDK需要你自己去官网获取最新安装包的rpm地址。
配置SSH公钥免密认证
CentOS中默认自带了openssh-server、openssh-clients以及rsync,如果你的系统中没有,那么请自行查找安装方式。
创建共同的账户
所有机器上创建hadoop(名称自定)账户,密码也统一设置为hadoop
useradd -d /home/hadoop -s /usr/bin/bash –g wheel hadoop passwd hadoop
SSH配置
vi /etc/ssh/sshd_config
找到如下三个配置项,并改成如下设置。如果被注释了,就去掉前面的#解除注释使配置生效。
RSAAuthentication yes PubkeyAuthentication yes # The default is to check both .ssh/authorized_keys and .ssh/authorized_keys2 # but this is overridden so installations will only check .ssh/authorized_keys AuthorizedKeysFile .ssh/authorized_keys
.ssh/authorized_keys就是公钥的存放路径。
密钥公钥生成
用hadoop账户登录。
cd ~ ssh-keygen –t rsa –P ''
将生成的~/.ssh/id_rsa.pub文件保存成~/.ssh/authorized_keys
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
用scp命令将.ssh目录拷贝到其他机器上,偷懒做法让所有的机器的密钥相同,共享公钥。
scp ~/.ssh/* hadoop@slave1:~/.ssh/
注意保证~/.ssh/id_rsa的访问权限必须是600,禁止其他用户访问。
Hadoop安装
参照官方配置文档