3.环境搭建-Hadoop（CDH）集群搭建

3.环境搭建-Hadoop（CDH）集群搭建
目录
目录

实验环境

安装 Hadoop

配置文件

在另外两台虚拟机上搭建hadoop

启动hdfs集群

启动yarn集群
本文主要是在上节CentOS集群基础上搭建Hadoop集群。

实验环境
- Hadoop版本：CDH 5.3.6
*本实验项目所需软件均可在百度网盘链接：http://pan.baidu.com/s/1dFeNR6h 密码：1zx4中获取。

安装 Hadoop

上传hadoop文件到/usr/local目录下
```
rz
```
解压
```
tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz
```
删除tar包
```
rm -rf hadoop-2.5.0-cdh5.3.6.tar.gz
```
重命名
mv hadoop-2.5.0-cdh5.3.6 hadoop

设置环境变量
```
vi ~/.bashrc
```
```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
生效设置
```
source ~/.bashrc
```
- 1
- 1
测试
```
hadoop
hadoop version

yarn
yarn version
```
创建/usr/local/data目录

配置文件

修改core-site.xml文件
```
cd /hadoop/etc/hadoop
ls
vi core-sie.xml
```
```
<property>
  <name>fs.default.name</name>
  <value>hdfs://sparkproject1:9000</value>
</property>
```
修改hdfs-site.xml
```
<property>
  <name>dfs.name.dir</name>
  <value>/usr/local/data/namenode</value>
</property>
<property>
  <name>dfs.data.dir</name>
  <value>/usr/local/data/datanode</value>
</property>
<property>
  <name>dfs.tmp.dir</name>
  <value>/usr/local/data/tmp</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
```
修改mapred-site.xml
```
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
```
```
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
```
修改yarn-site.xml
```
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>sparkproject1</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
```
修改slaves
```
sparkproject2
sparkproject3
```
sparkproject1是主节点，sparkproject2和sparkproject3是从节点

在另外两台虚拟机上搭建hadoop

在sparkproject1上使用scp命令将配置好的文件传输到另外两个虚拟机上
```
cd /usr/local
scp -r hadoop root@sparkproject2:/usr/local
scp -r hadoop root@sparkproject3:/usr/local
scp ~/.bashrc root@sparkproject2:~/
scp ~/.bashrc root@sparkproject3:~/   
```
在sparkproject2和sparkproject3上分别执行
```
source ~/.bashrc
```
在sparkproject2和sparkproject3的/usr/local目录下创建data目录
```
cd /usr/local
mkdir data
```
启动hdfs集群

格式化namenode
在sparkproject1上执行
```
hdfs namenode –format
```
启动集群
```
start-dfs.sh
```
查看是否启动成功

在浏览器中输入sparkproject1:50070查看状态

上传测试文件
```
vi hello.txt
```
```
Hello world !
```
```
hdfs dfs -put hell.txt /hello.txt
```
在网页端查看上传的文件

启动yarn集群
```
start-yarn.sh
```
- 1
- 1
使用jps检查各节点启动状态，sparkproject1上启动ResourceManager，sparkproject2和sparkproject3节点上启动NodeManager

在浏览器中输入sparkproject1：8088查看

至此，hadoop集群搭建完成，下一步将安装Hive。

更多文章：Spark大型电商项目实战：http://blog.csdn.net/u012318074/article/category/6744423
相关阅读:
linux时间设置相关
 tcp/ip协议和http协议
 redis和memcache的比较
 How to Display Image In Picturebox in VC++ from Iplimage and Mat
关于技术与业务的理解
 怎样写出好代码——设计原则
 怎么写出好代码——坏味道
 linux 用户管理
 浅谈ajax
浅析闭包和内存泄露的问题
原文地址：https://www.cnblogs.com/wanghuaijun/p/6860877.html

3.环境搭建-Hadoop（CDH）集群搭建

目录

实验环境

安装 Hadoop

配置文件

在另外两台虚拟机上搭建hadoop

启动hdfs集群

启动yarn集群