hadoop基本环境的配置,我是使用虚拟机,然后创建一个集群,模拟真正环境的集群,实现它的存储,计算和数据分析,一般使用电脑安装虚拟机的时候我们装他们的极简形式,因为图形界面很占内存,并且电脑有时候回会很卡。
1.准备Linux环境
(1)将虚拟机的网络模式选为NAT,其他的网络模式,我在以后在写。
(2)修改主机名。
vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop01
(2)修改ip
·方式一:通过setup命令,这个比较简单,配置的时候直接将IP设置就可以了。
·方式二:使用配置文件修改,IP等参数根据自己的电脑设置。
vi /etc/sysconfig/network-scripts/ifcfg-eth0 IPADDR=192.168.220.10 NATMASK=255.255.255.0 <!--可以查看网段,使用NETMASK与IP与运算,下来的结果就是网段 --> GATEWAY=192.168.110.0 <!--一般写成路由二地址,在虚拟机中,在虚拟机的网络中可以查看-->
方式三:通过图像界面修改
3.设置主机名并修改hosts文件,完成与IP的映射
vi /etc/hosts 192.168.220.10 hadoop01
4.关闭防火墙
#查看状态
service iptables status
#关闭防火墙
service iptables stop
5.创建新的用户(补充)
useradd hadoop01
passwd hadoop01
#设置权限,使用root权限
vi /etc/sudoers
找到root哪一行,复制,将root写成hadoop01就可以了。
6.重启Linux reboot
hadoop正式安装
1.安装JDK
·使用ALT+P开启sftp窗口,然后put 本地目录 默认是在当前操作的目录
·解压 tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop01
2;将java设置到环境变量
vim /etc/profile #在文件最后添加 export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585 export PATH=$PATH:$JAVA_HOME/bin #刷新配置 source /etc/profile
3.安装hadoop
·上传到Linux中,解压,设置成环境变量
·配置hadoop
(1)配置hadoop-env.sh
vi hadoop-env.sh # The java implementation to use. export JAVA_HOME=$/home/jdk # The jsvc implementation to use. Jsvc is required to run secure datanodes
(2)core-sitex.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.220.10:9000</value> </property> </configuration> <!-- 分布式的文件系统,那么他在任意一台机器上的运行的目录 我们将他们放在自定义的一个目录 --> <configuration> <property> <name>hadop.tmp.dir</name> <value>/home/hadoop/kwtemp</value> </property> </configuration>
(3)hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
~
(4)mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
(5)yarn-site.xml
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>192.168.220.10</value> </property> <!-- Site specific YARN configuration properties --> <!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> </configuration>
(6)将hadoop的bin和sbin配置到环境
(7)格式化namenode
(8)启动start-all.sh
因为是测试。将所有的都进行开启,当输入jps的时候出现如下组件,就说明成功了。【伪分布式,只是有一台机器,将所有的节点和namenode都启动在这一台机器中】
localhost: starting nodemanager, logging to /home/hadoop-2.6.4/logs/yarn-root-nodemanager-hadoop01.out [root@hadoop01 sbin]# jps 3407 NodeManager 3134 ResourceManager 2745 NameNode 3444 Jps 2831 DataNode 2994 SecondaryNameNode
如果有多台机器,我们就收工的在每一个机器上面启动相应的进程namenode或者dataNode.假如机器很多的时候,我们就需要下一个配置文件了。
[root@hadoop01 hadoop]# vi slaves
将其他节点假如到配置中。
注意:一定要配置hosts,修改主机名。