一.基本环境
1.安装xshell访问服务器,使用阿里云自带的服务器命令窗口也是可以的。
2.配置主机名和免密码登录,免密码登录网上方法有很多,这里不作过多赘述,主要对主机名配置的注意事项进行说明。
配置主机名需要对服务器下的两个文件进行修改
1.服务器/etc/hosts文件,里面保存了主机名到ip地址的映射信息。
在第一行添加信息,形如: 【 ip 地址 + 空格 + 主机名(如:master)】
2.服务器/etc/sysconfig/network文件,保存主机的相关信息。
设置HOSTNAME = 【主机名(如:master)】
设置NETWORKING = 【yes】
3.配置JDK,网上教程一大堆,这里不做过多赘述。
二.配置Hadoop环境变量,使得在命令行可以直接使用相关指令
1.这里提供Hadoop的安装包,通过rz指令(没有自己百度安装)进行上传解压安装。
链接:https://pan.baidu.com/s/1QPAhlCeYWs6_c3QKc31cGg
提取码:v7ma
2.通过指令vi ~/.bash_profile配置hadoop环境变量。
HADOOP_HOME=【Hadoop的安装目录路径】
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
3.通过指令source ~/.bash_profile使得环境变量生效。
三.配置伪分布环境需要修改的相关文件,一般配置文件在安装目录下的/etc/hadoop文件夹下面
1.hadoop-env.sh文件
修改第27行:export JAVA_HOME=【java的安装路径】
2.hdfs-site.xml文件
<!--配置HDFS的冗余度-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--配置是否检查权限-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
3.core-site.xml文件
<!--配置HDFS的NameNode-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://【主机名】:9000</value>
</property>
<!--配置DataNode保存数据的位置-->
<property>
<name>hadoop.tmp.dir</name>
<value>【自行定义数据存放位置,在下面的初始化操作之前需先创建对应文件夹】</value>
</property
4. mapred-site.xml文件(若没有此文件,查看是否有mapred-site-template.xml文件,进行复制修改文件名即可)
<!--配置MR运行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5. yarn-site.xml文件
<!--配置ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>【主机名】</value>
</property>
<!--配置NodeManager执行任务的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
4.格式化nameNode
hdfs namenode -format(若找不到指令,可以跳转到hadoop安装目录下的bin目录下执行相关指令)
5.启动Hadoop
start-all.sh (若找不到指令,可以跳转到hadoop安装目录下的sbin目录下执行相关指令)
6.jps指令可以查看当前的节点信息