CentOS 7安装Hadoop 3.0.0

CentOS 7安装Hadoop 3.0.0
最近在学习大数据，需要安装Hadoop，自己弄了好久，最后终于弄好了。网上也有很多文章关于安装Hadoop的，但总会遇到一些问题，所以把在CentOS 7安装Hadoop 3.0.0的整个过程记录下来，有什么不对的地方大家可以留言更正。

　　一、ssh免密登录

1、测试是否能免密登录
```
　　　　　　# ssh localhost
```
The authenticity of host 'localhost (::1)' can't be established.

2、设置免密登录

1)、去掉 /etc/ssh/sshd_config中的两行注释，如没有则添加，所有服务器都要设置的：
```
　　　　　　　　#RSAAuthentication yes  
　　　　　　　　#PubkeyAuthentication yes 
```
2)、生成秘钥：
```
# ssh-keygen -t rsa
```
备注：输入命令后回车4次

3)、复制到公共密钥中：
```
# cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys
```
4)、将秘钥复制到目标服务器：
```
# ssh-copy-id 目标服务器IP
```
5)、测试：（没有报错，并没有提示输入目标服务器用户密码，用户切换到目标服务器用户名则成功）
```
# ssh 目标服务器IP
```
备注：配置好了hadoop1到hadoop2免密登录，同时需要配置hadoop2到hadoop1的免密登录，在hadoop2上操作，过程同上

　　二、安装JDK

hadoop-3.0.0需要jdk1.8，此处省略安装过程，网上很多，过程也比较简单

　　三、安装hadoop

1、下载hadoop：

http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.0.0/

2、解压安装：

　1)、复制 hadoop-3.0.0.tar.gz 到/usr/hadoop目录下，然后
```
　　#tar -xzvf hadoop-3.0.0.tar.gz
```
解压，解压后目录为：/usr/hadoop/hadoop-3.0.0，Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用，成功则会显示 Hadoop 版本信息：
```
#cd /usr/hadoop/hadoop-3.0.0 
　　　　　　　　#./bin/hadoop version
```
2），在/usr/hadoop/目录下，建立tmp：
```
#mkdir /usr/hadoop/tmp
```
3)、设置环境变量：
```
#vi /etc/profile
　　　　　　　　# set hadoop path 
　　　　　　　　export HADOOP_HOME=/usr/hadoop/hadoop-3.0.0 
　　　　　　　　export PATH=$PATH:$HADOOP_HOME/bin
```
4)、使环境变量生效，终端中运行如下命令：
```
#source /etc/profile
```
5)、设置hadoop：　　　　　

一共需要配置主要的6个文件：

　　hadoop-3.0.0/etc/hadoop/hadoop-env.sh

　　hadoop-3.0.0/etc/hadoop/yarn-env.sh

　　hadoop-3.0.0/etc/hadoop/core-site.xml

　　hadoop-3.0.0/etc/hadoop/hdfs-site.xml

　　hadoop-3.0.0/etc/hadoop/mapred-site.xml

　　　　　　　　　　hadoop-3.0.0/etc/hadoop/yarn-site.xml

　　　　　　　　⑴、配置hadoop-env.sh：
```
　　　　　　　　　　# The java implementation to use.  
　　　　　　　　　　#export JAVA_HOME=${JAVA_HOME}  
　　　　　　　　　　export JAVA_HOME=/usr/java/jdk1.8.0_152 //根据自己jdk安装目录配置
```
⑵、配置yarn-env.sh：
```
　　　　　　　　　　#The java implementation to usr  
　　　　　　　　　　export JAVA_HOME=/usr/java/jdk1.8.0_152 //根据自己jdk安装目录配置
```
⑶、配置core-site.xml：
```
　　
　　　　　　　　　　<configuration>  
 　　　　　　　　　　　<property>  
    　　　　　　　　　　<name>fs.default.name</name>  
    　　　　　　　　　　<value>hdfs://localhost:9000</value>  
    　　　　　　　　　　<description>HDFS的URI，文件系统://namenode标识:端口号</description>  
　　　　　　　　　　　　</property>  
  
　　　　　　　　　　　　<property>  
    　　　　　　　　　　<name>hadoop.tmp.dir</name>  
    　　　　　　　　　　<value>/usr/hadoop/tmp</value> 
    　　　　　　　　　　<description>namenode上本地的hadoop临时文件夹</description>  
　　　　　　　　　　　　</property>  
　　　　　　　　　　</configuration>
```
⑷、配置hdfs-site.xml：
```
　　<configuration>  
　　　　　　　　　　<!—hdfs-site.xml-->  
　　　　　　　　　　　　<property>  
    　　　　　　　　　　<name>dfs.replication</name>  
    　　　　　　　　　　<value>1</value>  
    　　　　　　　　　　<description>副本个数，配置默认是3,应小于datanode机器数量</description>  
　　　　　　　　　　　　</property>  
　　　　　　　　　　</configuration>
```
⑸、配置mapred-site.xml：
```
　　
　　　　　　　　　　<configuration>  
　　　　　　　　　　　　<property>  
        　　　　　　　　<name>mapreduce.framework.name</name>  
        　　　　　　　　<value>yarn</value>  
　　　　　　　　　　　　</property>  
　　　　　　　　　　</configuration>
```
⑹、配置yarn-site.xml：
```
　　
　　　　　　　　　　<configuration>  
　　　　　　　　　　　　<property>  
        　　　　　　　　　　<name>yarn.nodemanager.aux-services</name>  
        　　　　　　　　　　<value>mapreduce_shuffle</value>  
　　　　　　　　　　　　</property>  　
```
　　　　　
　　　　　　　　　　　　　<property>
　　　　　　　　　　　　　　<name>yarn.nodemanager.aux-services</name>
　　　　　　　　　　　　　　<value>mapreduce_shuffle</value>
　　　　　　　　　　　　　</property>

　　　</configuration>
　　备注：以上配置都是以最简配置，还有很多配置可以自行添加

　　　　　　　6)、将/usr/hadoop复制到其他服务器：

　　　　　　　　　　scp -r /usr/hadoop root@192.168.1.11:/usr/hadoop

　7)、格式化namenode：　　
```
　　#CD /usr/hadoop/hadoop-3.0.0
　　　　　　　　　　# ./bin/hdfs namenode -format
```
　　成功的话，会看到 “successfully formatted” 和 “Exitting with status 0” 的提示，若为 “Exitting with status 1” 则是出错　　　　　　　　　　

　　备注：只需格式化namenode，datanode不需要格式化（若格式化了，可将/usr/hadoop/tmp目录下文件都删除），所以先将安装文件夹复制到其他服务器，再格式化

　　　　四、测试：

　　　　　　1、启动HDFS：
```
　　　　　　#CD /usr/hadoop/hadoop-3.0.0
　　　　　　# sbin/start-dfs.sh
```
如果运行脚本报如下错误,

ERROR: Attempting to launch hdfs namenode as root
　　　　　　ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch.
　　　　　　Starting datanodes
　　　　　　ERROR: Attempting to launch hdfs datanode as root
　　　　　　ERROR: but there is no HDFS_DATANODE_USER defined. Aborting launch.
　　　　　　Starting secondary namenodes [localhost.localdomain]
　　　　　　ERROR: Attempting to launch hdfs secondarynamenode as root
　　　　　　ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting launch.

解决方案

（缺少用户定义而造成的）因此编辑启动和关闭
```
　　　　　　$ vim sbin/start-dfs.sh
　　　　　　$ vim sbin/stop-dfs.sh
```
顶部空白处添加
```
　　　　　　HDFS_DATANODE_USER=root  
　　　　　　HADOOP_SECURE_DN_USER=hdfs  
　　　　　　HDFS_NAMENODE_USER=root  
　　　　　　HDFS_SECONDARYNAMENODE_USER=root
```
2)启动ResourceManager和NodeManager：
```
　　　　　　#CD /usr/hadoop/hadoop-3.0.0
　　　　　　#sbin/start-yarn.sh
```
　　　　　　如果启动时报如下错误，

　　　　　　Starting resourcemanager
　　　　　　ERROR: Attempting to launch yarn resourcemanager as root
　　　　　　ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting launch.

　　　　　　解决方案

（也是由于缺少用户定义）

　　　　　　是因为缺少用户定义造成的，所以分别编辑开始和关闭脚本
```
　　　　　　$ vim sbin/start-yarn.sh 
　　　　　　$ vim sbin/stop-yarn.sh 
```
顶部空白添加
```
　　　　　　YARN_RESOURCEMANAGER_USER=root  
　　　　　　HADOOP_SECURE_DN_USER=yarn  
　　　　　　YARN_NODEMANAGER_USER=root
```
3)、启动验证：

执行jps命令，出现下图基本完成

备注：也可以使用下面命令同时启动HDFS和ResourceManager、NodeManager：
```
　　　　　　#CD /usr/hadoop/hadoop-3.0.0
　　　　　　#sbin/start-all.sh
```
Hadoop2.3-HA高可用集群环境搭建  http://www.linuxidc.com/Linux/2017-03/142155.htm

Hadoop项目之基于CentOS7的Cloudera 5.10.1（CDH）的安装部署  http://www.linuxidc.com/Linux/2017-04/143095.htm

Hadoop2.7.2集群搭建详解（高可用）  http://www.linuxidc.com/Linux/2017-03/142052.htm

使用Ambari来部署Hadoop集群（搭建内网HDP源）  http://www.linuxidc.com/Linux/2017-03/142136.htm

Ubuntu 14.04下Hadoop集群安装  http://www.linuxidc.com/Linux/2017-02/140783.htm

CentOS 6.7安装Hadoop 2.7.2  http://www.linuxidc.com/Linux/2017-08/146232.htm

Ubuntu 16.04上构建分布式Hadoop-2.7.3集群  http://www.linuxidc.com/Linux/2017-07/145503.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建  http://www.linuxidc.com/Linux/2017-06/144932.htm

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程  http://www.linuxidc.com/Linux/2017-06/144926.htm

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址：http://www.linuxidc.com/Linux/2018-02/150812.htm
相关阅读:
C语言和python分别计算文件的md5值
 C语言计算文件大小
 Linux内核源码下载
 Linux系统编程20_VFS虚拟文件系统
 Linux系统编程19_标准I/O
C语言Review5_函数指针和数组指针
 C语言Review4_头文件引用符号的区别
 PDO之MySql持久化自动重连导致内存溢出
 小程序之app.json not found
phpstorm之"Can not run PHP Code Sniffer"
原文地址：https://www.cnblogs.com/aacoutlook/p/9075191.html

CentOS 7安装Hadoop 3.0.0

一、ssh免密登录

二、安装JDK

三、安装hadoop

　　一、ssh免密登录

　　二、安装JDK

　　三、安装hadoop