搭建hadoop集群关键步骤--以三节点为例

搭建三节点的hadoop集群：

要求：

主机名称	备注	IP地址	功能
hadoop01	Master 主节点	192.168.211.134	NameNode、DataNode、ResourceManager、NodeManager
hadoop02	Slave 次节点	192.168.211.129	DataNode、NodeManager、SecondaryNameNode
hadoop03	Slave 次节点	192.168.211.140	DataNode、NodeManager
所有机子都需要配置 1.JDK 2.SSH免登陆 3.Hadoop集群

三台机子同时进行：
步骤一：
添加用户，设置密码
useradd hadoop
passwd hadoop

步骤二：
为用户设置权限
su root
visudo
在文件的如下位置，为hadoop添加一行即可
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL
#如果需要用户hadoop使用sudo命令时不输入密码，则是输入以下一句：
hadoop ALL=(ALL) NOPASSWD:ALL

步骤三：
同步时间：三台主机同时设置
sudo date -s "00:00:00"

(可以用时间服务器定时同步主节点来修改）

步骤四；
设置主机名：
sudo vi /etc/sysconfig/network
每台各设置
hadoop01
hadoop02
hadoop03

（思考：可以用发送的方式来发送给从节点或其他主机）

步骤五：
配置内网域名映射(在各主机下都写三台主机的映射)sudo vi /etc/hosts
hadoop01
hadoop02
hadoop03

（思考：可以用发送的方式来发送给从节点或其他主机）

步骤六：
配置防火墙
service iptables start
service iptables status
service iptables stop
chkconfig iptables --list
chkconfig iptables off
service iptables save

（思考：是否可以用时间服务器定时对防火墙进行关闭保存，或者从一开始就设置防火墙自动关闭）

下面在一台主机上进行：

步骤七：
安装jdk，hadoop
上传jdk、Hadoop包
解压jdk包：/home/hadoop/jdk1.8.0_101
tar -zxvf jdk-8u101-linux-x64.tar.gz
修改配置文件 sudo vi /etc/profile
export JAVA_HOME=/home/hadoop/jdk1.8.0_101
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:
PATH=$PATH:$JAVA_HOME/bin:
刷新配置文件：source /etc/profile

(思考：是否可以将发送后的配置文件进行定时刷新）
which java 查看当前系统使用的jdk/home/hadoop/jdk1.8.0_101/bin/java

步骤八：
解压Hadoop包
tar -zxvf hadoop-2.6.1.tar.gz
修改配置文件(包括java,hadoop) sudo vi /etc/profile

export JAVA_HOME=/home/hadoop/jdk1.8.0_101
export HADOOP_HOME=/home/hadoop/hadoop-2.6.1
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

刷新配置文件：source /etc/profile

步骤九：设置免登录
免密登录作用：用于在namenode 和datanode 之间传递。

(在根目录（~）ssh (按table键显示ssh文件,包括ssh-key加密钥)
cd /home/hadoop/.ssh 可以进入.ssh文件夹
在.ssh 路径下 ls 可以看到know_hosts文件)

配置加密命令：
在根目录（~）下 cd ~
ssh-keygen -t rsa 回车执行,然后一路回车(好像一共回车3次)

然后在 /home/hadoop/.ssh/目录下
cd /home/hadoop/.ssh/
ls
显示增加了id_rsa id_rsa.pub两个文件

在/home/hadoop/.ssh/目录下，ssh- (按table键)
显示有ssh-copy-id 文件

在/home/hadoop/.ssh/下执行
ssh-copy-id hadoop@hadoop01 之后再输入密码，回车
ssh-copy-id hadoop@hadoop02 之后再输入密码，回车
ssh-copy-id hadoop@hadoop03 之后再输入密码，回车

在~根目录下，scp ./myfile hadoop@hadoop02:/home/hadoop/ 回车执行，可远程发送
在~根目录下,ssh hadoop@hadoop03 回车执行可进入第三台主机

删掉/hadoop-2.6.1/share文件夹下doc文件夹（用不到）

步骤十：
注意:把配置好的jdk文件夹发送给其他节点：
scp -r jdk1.8.0_101 hadoop@hadoop02:/home/hadoop/
scp -r jdk1.8.0_101 hadoop@hadoop03:/home/hadoop/

也可以发送环境变量过去：
sudo scp /etc/profile root@hadoop02:/etc/
sudo scp /etc/profile root@hadoop03:/etc/
刷新系统环境变量配置文件： source /etc/profile

步骤十一：
给Hadoop框架配置jdk（作用：启动集群）
vi /home/hadoop//hadoop-2.6.1/etc/hadoop/hadoop-env.sh
将export JAVA_HOME=${JAVA_HOME} 修改为
export JAVA_HOME=/home/hadoop/jdk1.8.0_101

步骤十二：
在/home/hadoop/hadoop-2.6.1/路径下添加hadoopdata文件夹
cd /home/hadoop/hadoop-2.6.1/
mkdir hadoopdata

手动创建的hadoopdata文件夹是用来存放数据和元数据的，
注意：1.要放在/home/hadoop/hadoop-2.6.1/下，不能放在根目录下，放在根目录下没有权限操作。
2.要在发送环境变量和配置好的hadoop文件夹之前创建。

步骤十三：修改配置文件
修改配置文件
修改core-site.xml文件
<property>
<name>fs.defaultFS</name>

<value>hdfs://hadoop01:8020</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>4096</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.6.1/hadoopdata/tmp</value>
</property>

修改hdfs-site.xml文件
<property>
<name>dfs.replication</name>

<value>3</value>
</property>
<property>

<name>dfs.blocksize</name>
<value>134217728</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>

<value>file:///home/hadoop/hadoop-2.6.1/hadoopdata/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>

<value>file:///home/hadoop/hadoop-2.6.1/hadoopdata/dfs/data</value>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>file:///home/hadoop/hadoop-2.6.1/hadoopdata/checkpoint/dfs/cname</value>
</property>
<property>
<name>fs.checkpoint.edits.dir</name>
<value>file:///home/hadoop/hadoop-2.6.1/hadoopdata/checkpoint/dfs/cname</value>
</property>
<property>
<name>dfs.http.address</name>
<value>hadoop01:50070</value>
</property>
<property>
（主机2为主机1做辅助作用）
<name>dfs.secondary.http.address</name>
<value>hadoop02:50090</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

修改mapred-site.xml文件
命令如下：
# mv mapred-site.xml.template mapred-site.xml
#vi mapred-site.xml

<property>

<name>mapreduce.framework.name</name>
<value>yarn</value>
<final>true</final>
</property>
<property>

<name>mapreduce.jobhistory.address</name>
<value>hadoop01:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop01:19888</value>
</property>

修改yarn-site.xml
<property>

<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop01:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop01:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop01:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop01:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoop01:8088</value>
</property>

步骤十四：配置datanode，datamanager节点
#vi slaves
将所有需要配置成slave类型的机器的机器名写在其内部即可.
注意:每个机器名占一行。
hadoop01
hadoop02
hadoop03

步骤十五：
(Master文件存的是的secondarynamenode列表)(master文件没有，需手动创建)注意要在hadoop目录下创建
#vi /etc/hadoop/master
# vi ./master
hadoop02

步骤十六：
//将配置好的Hadoop文件夹发送给slave1和slave2机子。在~根目录下进行发送，即远程拷贝
#scp -r hadoop-2.6.1 hadoop@hadoop02:/home/hadoop/
#scp -r hadoop-2.6.1 hadoop@hadoop03:/home/hadoop/

步骤十七：
配置Hadoop框架的环境变量：----一会儿调一下
export HADOOP_HOME=/home/hadoop/hadoop-2.6.1 (直接粘贴)
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin (配置bin，是因为执行脚本在bin里面.将 :$HADOOP_HOME/bin:$HADOOP_HOME/sbin 直接添加
在 PATH=$PATH:$JAVA_HOME/bin 后即可) 作用：配置之后，在任何路径下都可以使用/sbin目录下的脚本。
# source /etc/profile

步骤十八：
发送hadoop的环境变量到其他节点：
scp /etc/profile root@hadoop02:/etc/
scp /etc/profile root@hadoop03:/etc/

步骤十九；
可测试：根目录~下 st+table键出现以st开头的文件即表明配置成功。

步骤二十：
//启动Hadoop集群（因为name和data目录只有在格式化之后才创建）
在/home/hadoop/hadoop-2.6.1/hadoopdata文件夹下格式化
//启动之前先格式化，只需要一次即可(在NameNode节点)
#hadoop namenode -format

启动之前最好检查防火墙是否处于关闭状态。

步骤二十一；启动hdfs集群和yarn集群
在根目录下~，执行start-dfs.sh 先启动hdfs集群。执行完毕之后，显示启动namenode 和datanode。
在/dfs文件夹下自动创建了data和name两个文件夹。

在~根目录下，执行start-yarn.sh ，启动yarn集群，启动后显示resourcemanager和nodemanager
(log显示在第一台启动resourcemanager)
步骤二十二；
jps验证：显示启动各个功能

步骤二十三：
集群启动成功，上传文件测试：
根目录~下，vi aaa ,随便写点东西即可，保存退出
根目录下执行，hadoop fs -put ./aaa / (注：./aaa表示当前路径，后面的 / 表示hdfs系统的根路径

搭建集群主要在于配置文件，配置文件说明链接：http://www.cnblogs.com/pingzizhuanshu/p/8964011.html

以五节点为例：链接：http://www.cnblogs.com/pingzizhuanshu/p/8964025.html

成就人

相关阅读:
WinForm笔记1：TextBox编辑时和DataGridView 单元格编辑时的事件及其顺序
 Emgu 学习(4) 使用指针访问图像内存
 SolidWorks学习笔记1
Emgu 学习(3) 绘图，使用鼠标绘图，使用trackbar
NModbus4的使用
 C# async await的使用
 Emgu 学习(2) 视频文件播放
 redis-key2
redis--key1
rpc优化
原文地址：https://www.cnblogs.com/pingzizhuanshu/p/8963961.html