hadoop安装

hadoop安装

1.修改主机名和用户名
1.1 创建用户
在开始时，建议创建一个单独的用户Hadoop以从Linux文件系统隔离Hadoop文件系统。按照下面给出的步骤来创建用户：

$ useradd hadoop
$ passwd hadoop
密码设置为123456

1.2 设置主机名
修改主机名 vim /etc/sysconfig/network
把HOSTNAME后的名称,修改为 master，如果有其他节点，分别修改为slave1 、slave2 ...

1.3 节点间互相访问
执行vim /etc/hosts ,在末尾加上：
192.168.30.150 master
如果是分布式，还需要加上：
192.168.30.151 slave1
...

2.配置SSH无密码连接
2.1 关闭防火墙
永久关闭防火墙：
执行：chkconfig iptables off

2.2 查看SSH是否安装
执行：
yum install ssh
yum install rsync (rsync是一个远程数据同步工具)

启动SSH服务命令：
service sshd restart
检查是否安装成功，执行：
rpm -qa | grep openssh
rpm -qa | grep rsync

2.3 生成SSH公钥
首先在主节点上（以hadoop用户）执行：
ssh-keygen -t rsa 遇到提示回车
生成公钥后，需要发送至本机的authorized_keys的列表，执行：
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@master
如果是完全分布式安装，需要把公钥复制到其他节点中，执行：
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave2
...

2.3 验证安装
hadoop用户执行：
ssh master 如果没有出现输入密码提示则安装成功，否则需要执行：
chmod 700 /home/hadoop/.ssh
chmod 644 /home/hadoop/.ssh/authorized_keys

3.安装JDK
3.1 卸载JDK
查询已安装的JDK版本：
执行：rpm -qa | grep jdk
卸载命令：
执行：yum -y remove xxx (xxx是查询后的jdk名称)

3.2 安装JDK
下载jdk到本地，解压：
tar -xzvf jdk-xxx.tar.gz
配置环境变量，vim /etc/profile 后追加：
export JAVA_HOME=/opt/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin
立即生效，执行：
source /etc/profile

3.2 验证安装
执行：
java -version

4.配置Hadoop
4.1 下载解压（hadoop用户）
使用时2.6.0-cdh5.6.0版本，放在/opt文件下：
tar -zxvf hadoop-2.6.0-cdh5.6.0

4.2 修改配置文件（hadoop用户）
（1）修改hadoop-env.sh ，文件结尾追加：
export JAVA_HOME=/opt/jdk1.8.0_121
export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0

（2）修改core-site.xml ，core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息，分配给文件系统存储，用于存储所述数据存储器的限制和大小。打开core-site.xml 并在<configuration>，</configuration>标记之间添加以下属性：

<configuration>

   <property>

      <name>fs.default.name </name>

      <value> hdfs://localhost:9000 </value>

   </property>

</configuration>

（3）修改hdfs-site.xml ，文件中包含如复制数据的值，NameNode路径的信息,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方：

<configuration>

  <property>

    <name>dfs.replication</name>

    <value>1</value>

  </property>

  <property>

    <name>dfs.name.dir</name>

    <value>/opt/hdfs/name</value>

  </property>

  <property>

    <name>dfs.data.dir</name>

    <value>/opt/hdfs/data</value>

  </property>

</configuration>

（4）修改mapred-site.xml ，该项配置指明了MapReduce计算框架基于YARN进行工作：

<configuration>

  <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

  </property>

</configuration

（5）修改yarn-site.xml ，该项配置指明了ResourceManager服务的主机名和端口号：

<configuration>

  <property>

    <name>yarn.resourcemanager.address</name>

    <value>master:8080</value>

  </property>

  <property>

    <name>yarn.resourcemanager.resource-tracker.address</name>

    <value>master:8082</value>

  </property>

  <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

  <property>

    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

    <value>org.apache.hadoop.mapred.ShuffleHandler</value>

  </property>

</configuration>

（6）修改slaves ：
修改为 master .
如果是完全分布模式需要加上：
slave1
slave2
...
然后利用scp命令将安装文件夹分发到其他节点相同路径下：
scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave1:/opt
scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave2:/opt

4.3 配置环境变量（root用户，所有节点都需要执行）
修改 vim /etc/profile 后追加：
export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0
export PATH=$PATH:$HADOOP_HOME/bin
立即生效，执行：
source /etc/profile

5.格式化HDFS
第一次启动时，必须先将HDFS格式化，执行：
hadoop namenode -format

6.启动Hadoop
首先root用户赋予hadoop执行权限：
chmod +x -R /opt/hadoop-2.6.0-cdh5.6.0/sbin
启动命令，hadoop用户执行：
./opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh

使用jps，查看经常名称：

29072 Jps

26977 NodeManager

26885 ResourceManager

26567 DataNode

26477 NameNode

26750 SecondaryNameNode
相关阅读:
数据比赛实现的细节
 matlab 构建数据集实用 api
matlab 构建数据集实用 api
新技能 get —— 如何校验 md5（windows）
新技能 get —— 如何校验 md5（windows）
中间件 —— 消息中间件（MOM）
中间件 —— 消息中间件（MOM）
详细说明svn分支与合并---命令行
 SVN 分支及合并的介绍和实践---命令行
 SVN中的Branches分支以及Merge 应用举例
原文地址：https://www.cnblogs.com/peng-lan/p/9605188.html

2.2 查看SSH是否安装 执行：yum install sshyum install rsync (rsync是一个远程数据同步工具)启动SSH服务命令：service sshd restart检查是否安装成功，执行：rpm -qa | grep openssh rpm -qa | grep rsync

2.3 验证安装 hadoop用户执行：ssh master 如果没有出现输入密码提示则安装成功，否则需要执行：chmod 700 /home/hadoop/.sshchmod 644 /home/hadoop/.ssh/authorized_keys

3.安装JDK3.1 卸载JDK查询已安装的JDK版本：执行：rpm -qa | grep jdk卸载命令：执行：yum -y remove xxx (xxx是查询后的jdk名称)

3.2 安装JDK下载jdk到本地，解压：tar -xzvf jdk-xxx.tar.gz配置环境变量，vim /etc/profile 后追加：export JAVA_HOME=/opt/jdk1.8.0_121export PATH=$PATH:$JAVA_HOME/bin立即生效，执行：source /etc/profile

3.2 验证安装执行： java -version

（3）修改hdfs-site.xml ，文件中包含如复制数据的值，NameNode路径的信息,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方：

（4）修改mapred-site.xml ，该项配置指明了MapReduce计算框架基于YARN进行工作：

（5）修改yarn-site.xml ，该项配置指明了ResourceManager服务的主机名和端口号：

（6）修改slaves ：修改为 master .如果是完全分布模式需要加上：slave1slave2... 然后利用scp命令将安装文件夹分发到其他节点相同路径下：scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave1:/opt scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave2:/opt

4.3 配置环境变量 （root用户，所有节点都需要执行）修改 vim /etc/profile 后追加：export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0export PATH=$PATH:$HADOOP_HOME/bin立即生效，执行：source /etc/profile

5.格式化HDFS第一次启动时，必须先将HDFS格式化，执行：hadoop namenode -format

6.启动Hadoop首先root用户赋予hadoop执行权限：chmod +x -R /opt/hadoop-2.6.0-cdh5.6.0/sbin启动命令，hadoop用户执行：./opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh使用jps，查看经常名称：

2.2 查看SSH是否安装
执行：
yum install ssh
yum install rsync (rsync是一个远程数据同步工具)

启动SSH服务命令：
service sshd restart
检查是否安装成功，执行：
rpm -qa | grep openssh
rpm -qa | grep rsync

2.3 验证安装
hadoop用户执行：
ssh master 如果没有出现输入密码提示则安装成功，否则需要执行：
chmod 700 /home/hadoop/.ssh
chmod 644 /home/hadoop/.ssh/authorized_keys

3.安装JDK
3.1 卸载JDK
查询已安装的JDK版本：
执行：rpm -qa | grep jdk
卸载命令：
执行：yum -y remove xxx (xxx是查询后的jdk名称)

3.2 安装JDK
下载jdk到本地，解压：
tar -xzvf jdk-xxx.tar.gz
配置环境变量，vim /etc/profile 后追加：
export JAVA_HOME=/opt/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin
立即生效，执行：
source /etc/profile

3.2 验证安装
执行：
java -version

（6）修改slaves ：
修改为 master .
如果是完全分布模式需要加上：
slave1
slave2
...
然后利用scp命令将安装文件夹分发到其他节点相同路径下：
scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave1:/opt
scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave2:/opt

4.3 配置环境变量（root用户，所有节点都需要执行）
修改 vim /etc/profile 后追加：
export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0
export PATH=$PATH:$HADOOP_HOME/bin
立即生效，执行：
source /etc/profile

5.格式化HDFS
第一次启动时，必须先将HDFS格式化，执行：
hadoop namenode -format

6.启动Hadoop
首先root用户赋予hadoop执行权限：
chmod +x -R /opt/hadoop-2.6.0-cdh5.6.0/sbin
启动命令，hadoop用户执行：
./opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh

使用jps，查看经常名称：