Hadoop的分布模式安装

1.确定集群的结构

由于SecondaryNameNode是执行合并任务的，内存占用特别大，所以单独一台大内存的节点。

以上4个ip可以是单独的物理机，也可以是虚拟机。生产环境中，一般是物理机。

假设各节点安装的linux版本完全一致。

假设各ip已经设置完成了主机名、防火墙关闭、ssh免密码登录等事项。并且在192.168.1.220上已经成功安装了hadoop的伪分布模式。如果还没有搞定的同学，可以参考前面的文章。

修改hadoop0的/etc/hosts文件，增加以下内容

192.168.1.220   hadoop0
192.168.1.221   hadoop1
192.168.1.222   hadoop2
192.168.1.223   hadoop3

目的是在hadoop0上通过主机名可以找到各个机器。

然后在hadoop0的终端中执行命令

scp  /etc/hosts hadoop1:/etc
scp  /etc/hosts hadoop2:/etc
scp  /etc/hosts hadoop3:/etc

该命令是把hadoop0的hosts文件复制到其他节点的对应文件中

在hadoop0的终端中执行以下命令

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop1
ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop2
ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop3

这样做是把公钥信息拷贝到其他节点中。同理，其他节点也执行类似操作，如hadoop1中执行以下命令

ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop0
ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop2
ssh-copy-id  -i  ~/.ssh/id_rsa.pub  hadoop3

在hadoop2、hadoop3中也执行类似操作。

首先把hadoop0中的${HADOOP_HOME}/tmp和${HADOOP_HOME}/logs删掉，命令如下。

rm  -rf  /usr/local/hadoop/tmp
rm  -rf  /usr/local/hadoop/logs

然后在hadoop0执行以下命令

scp  -r  /usr/local/hadoop  hadoop1:/usr/local
scp  -r  /usr/local/jdk   hadoop1:/usr/local
scp  -r  /etc/profile   hadoop1:/etc/

执行完毕后，把命令中的hadoop1替换为hadoop2执行，替换为hadoop3执行。

以上操作是把hadoop0中的jdk文件夹和hadoop文件夹及环境变量复制到其他节点，避免安装了。

在hadoop0的${HADOOP_HOME}/conf目录中，找到masters文件，删除内容，添加hadoop1；

找到slaves文件，删除内容，添加hadoop2和hadoop3，每个节点一行，不能写在一行中。

注意：只修改hadoop0的配置文件，其他节点的任何hadoop配置文件都不能修改。

在hadoop0节点，执行以下命令

hadoop  namenode  -format
start-all.sh

第一条命令是格式化文件系统，第二条命令是启动hadoop集群。

在hadoop0执行命令jps，可以看到两个java进程，分别是NameNode、JobTracker；

在hadoop1执行命令jps，可以看到一个java进程，是SecondaryNameNode；

在hadoop2执行命令jps，可以看到两个java进程，分别是DataNode、TaskTracker；

在hadoop3执行命令jps，可以看到两个java进程，分别是DataNode、TaskTracker；

恭喜你，搞定了！！