1.下载
https://hadoop.apache.org/releases.html
2.上传到linux
scp hadoop-3.0.3.tar.gz XJ@192.168.109.101:~/installPack/hadoop-3.0.3.tar.gz
3.解包
tar -zxvf hadoop-3.0.3.tar.gz -C ../software/
4.修改配置文件
1>hadoop-env.sh 修改java环境变量
export JAVA_HOME=/home/XJ/software/jdk1.8.0_191
2> core-site.xml
核心配置文件,配置默认文件系统和数据目录,(注意fs.defaultFS配置的是namenode的地址,每个datanode都一样)
<property> <name>fs.defaultFS</name> <value>hdfs://hadoop001:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/XJ/software/hadoop-3.0.3/data</value> </property>
3>hdfs-site.xml
hdfs配置文件,配置副本数量
<property> <name>dfs.replication</name> <value>3</value> </property>
4>mapred-site.xml
mapreduce配置文件,配置资源调度集群
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
5>yarn-site.xml
yarn配置文件,指定yarn集群主节点和map节点与reduce节点的交互机制
<property> <name>yarn.resourcemanager.hostname</name> <value>hadoop001</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
6>workers
配置datanode的机器
hadoop001
hadoop002
hadoop003
5.配置ssh免密登录
注解自己的公钥也要配进自己的授权访问列表,因为登录自己也会是ssh登录
6.关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
firewall-cmd --state
7.格式化hdfs文件系统
./hadoop namenode -format
8.启动hdfs
./start-dfs.sh
9.用jps查看进程
在目标namenode机器会启动NameNode进程和SecondaryNameNode进程
在datanode集群机器会启动DataNode进程
10.启动yarn
./start-yarn.sh