虚拟机创建和基本linux配置略过,重点记录单节点上搭建伪分布式hadoop集群的关键配置。
获取hadoop bin包解压等略过。
所有模式都需要修改此配置
/etc/profile
export JAVA_HOME=/opt/apps/jdk
export CLASSPATH=.:${JAVA_HOME}/lib
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/apps/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
hadoop-env.sh
必须配置JAVA_HOME,默认JAVA_HOME=${ JAVA_HOME} 可能取不到
export JAVA_HOME=/opt/apps/jdk
配置HADOOP_HOME环境变量方便使用
export HADOOP_HOME=/opt/apps/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
特征:所有服务都在一台机器上,即可以使用本地文件系统,也可以使用分布式文件系统
core-site.xml
fs.defaultFS = hdfs://Master:9000 文件系统
hadoop.tmp.dir = /opt/workspace/hadoop 工作目录
hdfs-site.xml
dfs.replication = 1 默认副本数,可由HDFS_Client重配置 ,伪分布式单节点不需要多副本
mapred-site.xml
mapreduce.framework.name = yarn mr运行框架
yarn-site.xml
yarn.resourcemanager.hostname = Master 指定RM的hostname
yarn.nodemanager.aux-services = mapreduce_shuffle 辅助服务
namenode格式化:hadoop namenode -format
启动集群
start-dfs.sh
start-yarn.sh
节点将启动 Namenode SeconderyNamenode Datanode ResourceManager Nodemanager
基本测试
Namenode UI
http://192.8.0.10:50070
运行MR Example
hadoop jar hadoop-mapreduce-examples-2.7.6.jar pi 5 5
CLI HDFS_Client
Hadoop fs -ls /user