hadoop-2.3.0-cdh5.1.0伪分布安装（基于centos）

`一、环境`

操作系统：CentOS 6.5 64位操作系统

注：Hadoop2.0以上采用的是jdk环境是1.7,Linux自带的jdk卸载掉，重新安装

下载地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html

软件版本：hadoop-2.3.0-cdh5.1.0.tar.gz, zookeeper-3.4.5-cdh5.1.0.tar.gz

下载地址：http://archive.cloudera.com/cdh5/cdh/5/

开始安装：

二、jdk安装

1、检查是否自带jdk

rpm -qa | grep jdk

java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686

2、卸载自带jdk

yum -y remove java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686

或：

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64

3、安装jdk-7u55-linux-x64.tar.gz

在usr/目录下创建文件夹java,在java文件夹下运行tar –zxvf jdk-7u55-linux-x64.tar.gz

解压到java目录下

[root@master01 java]# ls

jdk1.7.0_55

三、配置环境变量

运行vim /etc/profile

# /etc/profile

# System wide environment and startup programs, for login setup

# Functions and aliases go in /etc/bashrc

export JAVA_HOME=/usr/java/jdk1.7.0_55
export JRE_HOME=/usr/java/jdk1.7.0_55/jre
export CLASSPATH=/usr/java/jdk1.7.0_55/lib
export PATH=$JAVA_HOME/bin: $PATH

保存修改，运行source /etc/profile 重新加载环境变量

运行java -version

[root@master01 java]# java -version

java version "1.7.0_55"

Java(TM) SE Runtime Environment (build 1.7.0_55-b13)

Java HotSpot(TM) 64-Bit Server VM (build 24.55-b03, mixed mode)

Jdk配置成功

四、系统配置

1 、关闭防火墙

chkconfig iptables off(永久性关闭)

配置主机名和hosts文件

2、SSH无密码验证配置

因为Hadoop运行过程需要远程管理Hadoop的守护进程，NameNode节点需要通过SSH（Secure Shell）链接各个DataNode节点，停止或启动他们的进程，所以SSH必须是没有密码的，所以我们要把NameNode节点和DataNode节点配制成无秘密通信，同理DataNode也需要配置无密码链接NameNode节点。

在每一台机器上配置：

vi /etc/ssh/sshd_config打开

RSAAuthentication yes # 启用 RSA 认证，PubkeyAuthentication yes # 启用公钥私钥配对认证方式

Master01:运行：ssh-keygen -t rsa -P '' 不输入密码直接enter

默认存放在／root／.ssh目录下,

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[root@master01 .ssh]# ls

authorized_keys id_rsa id_rsa.pub known_hosts

如果不是root用户安装(本例默认root用户安装)，需要放开权限，执行以下命令：

chmod 755 .ssh
chmod 600 ~/.ssh/authorized_keys

五、hadoop伪分布式配置

5.1 编辑文件： etc/hadoop/hadoop-env.sh （注：JAVA_HOME如果有值就用自己的JAVA_HOME替代）

# set to the root ofyour Java installation
  export JAVA_HOME=/usr/java/latest
 
  # Assuming your installation directory is/usr/local/hadoop
  export HADOOP_PREFIX=/usr/local/hadoop

5.2 增加hadoop环境变量

export HADOOP_HOME=/usr/local/cdh/hadoop

5.3

编辑文件 etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑 etc/hadoop/hdfs-site.xml（/usr/local/cdh/hadoop/data/dfs/name目录一定要手工创建再格式化，不然出错）

<configuration> 
 <property> 
    <!--开启web hdfs--> 
    <name>dfs.webhdfs.enabled</name> 
    <value>true</value> 
 </property>
 <property> 
   <name>dfs.replication</name> 
   <value>1</value> 
 </property>
 <property> 
    <name>dfs.namenode.name.dir</name> 
    <value>/usr/local/cdh/hadoop/data/dfs/name</value> 
    <description> namenode 存放name table(fsimage)本地目录（需要修改）</description> 
 </property> 
 <property> 
     <name>dfs.namenode.edits.dir</name> 
     <value>${dfs.namenode.name.dir}</value> 
     <description>namenode粗放 transactionfile(edits)本地目录（需要修改）</description> 
  </property> 
  <property> 
      <name>dfs.datanode.data.dir</name> 
      <value>/usr/local/cdh/hadoop/data/dfs/data</value> 
      <description>datanode存放block本地目录（需要修改）</description> 
  </property>
</configuration>

编辑：etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

编辑：etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

六：启动及验证安装是否成功

格式化：要先格式化HDFS:

 bin/hdfs namenode -format

启动：

  sbin/start-dfs.sh

  sbin/start-yarn.sh

查看进程：jps

7448 ResourceManager

8277 SecondaryNameNode

7547 NodeManager

8079 DataNode

7975 NameNode

8401 Jps

 
 
 
1.   打开浏览器
  NameNode - http://localhost:50070/
2.   创建文件夹
3.    $bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>
4.   Copy 文件
  $ bin/hdfs dfs -put etc/hadoop input
5.   运行作业
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.1.0.jar grep input output 'dfs[a-z.]+'
6.   查看输出
  $ bin/hdfs dfs -get output output
  $ cat output/*

相关阅读:
第13周作业集
 软件工程结课作业
 第13次作业--邮箱的正则表达式
 第12次作业--你的生日
 第11次作业
 第10次作业
 找回感觉的练习
 第16周作业
 第15周作业
 第14周作业
原文地址：https://www.cnblogs.com/jamesf/p/4751510.html