学习笔记之分布式hadoop,分布式的hadoop是大数据的基础。所有的组件的搭建都建立在分布式hadoop上。后期的高可用和动态的删除节点和增加节点都需要使用到。
如果分布式的hadoop搭建成功,则会开启以下服务
master namenode datanode nodemanager jps
slave1 datanode nodemanager jps secondarynamenode
slave2 datanode nodemanager jps resourcemanager
上传解压
tar -zxf hadoop-2.6.0.tar.gz -C /usr/local/src/ mv hadoop-2.6.0.tar.gz hadoop
修改环境变量
vi /etc/profile
export HADOOP_HOME=/usr/local/src/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
修改配置文件
cd /usr/local/src/hadoop/etc/hadoop
修改6个文件:hadoop-env.sh;core-env.xml;hdfs-env.xml;mapreduce-site.xml;yarn-site.xml;slaves
其中mapreduce-site.xml 并不存在,但是有mapreduce-site.xml.template,所以要重命名。
1)hadoop-env.sh
修改export JAVA_HOME=${JAVA_HOME}为
export JAVA_HOME=/usr/loca/src/jdk
2)core-site.xml
<property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/zhy/hadoop/hdfs/tmp</value> </property>
3)hdfs-site.xml
<property> <name>dfs.namenode.name.dir</name> <value>/usr/local/src/hadoop/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/src/hadoop/hdfs/data</value> </property> <property> <name>dfs.repliation</name> <value>2</value> </property> <property> <name>dfs.secondary.http.address</name> <value>slave1:50090</value> </property>
4)mapreduce-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
5)yarn-site.xml
<property>
<name>yarn.resourcemanager.host</name>
<value>slave3</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>slave3:8032</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
6)slaves
master
slave1
slave2
初始化
hadoop namenode -format 或者 hdfs namenode -format
启动
start-dfs.sh start-yarn.sh #在yarn上启动
验证
输入jps查看hadoop启动的服务