Hadoop 安装是非常简单,要安装在Linux 系统上,需要以来Java ,所有要提前安装Java环境,安装步骤如下:
- 当然是下载安装文件了,咱们就直接下载Hadoo 二进制包了,可以去Apache Hadoop 官网下载,包下载之后是tar.gz,需要解压到目录
tar zxvf hadoop-x.y.z.tar.gz
- 制定JAVA_HOME, 如果已经安装了JAVA并且正确设置了JAVA_HOME,此时就可以使用HADOOP了,如果没有设置JAVA_HOME,可以手动制定,也可以修改 HADOOP目录/conf/hadoop-en.sh 中 制定JAVA_HOME的值
- 将HADOOP配置到环境变量中,这样就可以在任何目录下使用HADOOP 指令了
export HADOOP_HOME=you hadoop dir export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
- 此时我们就可以使用HADOOP命令
-
hadoop version
会输出HAdoop的版本信息
Hadoop 安装模式:
Hadoop有三种安装模式
- 本地(LOCAL)
- 本地模式没有运行任何守护进程,只是使用Hadoop/bin下的命令
- 伪分布
- 模仿完全分布式,可以看做是完全分布式的一种特例,所有模块全部运行在一台机器上
- 完全分布式
- 分布式安装
本地模式不在介绍,只需要配置好JAVA_HOME环境就可以安装了,
伪分布:
伪分布模式,我们需要启动HADOOP守护进程,而且需要配置HADOOP的配置文件
- core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost</value> </property> </configuration>
-
hdfs-sits.xml
-
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
-
mapred-site.xml
-
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
yarn.site.xml
-
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
配置SSH
- 如果没有安装SSH 则需要先安装,一般都已经安装了
-
sudo apt-get install ssh
- 配置无密码登录
-
ssh-keygen -t rsa -P ''
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys - 测试登录一下
-
ssh localhost
- 格式化HDFS
-
hdfs namenode -format
- 启动HDFS,YARN,MR守护进程
-
start-dfs.sh # hdfs start-yarn.sh # yarn
- 创建用户目录
-
hdoop fs -mkdir -p /user/$USER
OK,为分布我们已经成功设置完毕