hadoop2.5.2学习及实践笔记（一）—— 伪分布式学习环境搭建

软件

　　工具：vmware 10

　　系统：centOS 6.5 64位

　　Apache Hadoop: 2.5.2 64位

　　Jdk: 1.7.0_75 64位

安装规划

　　/opt/softwares/ ************* 软件包路径

　　 /modules/　　　************* 软件安装路径

安装准备

　　1. 安装并配置jdk

# cd /opt/softwares/ --进入到软件包目录

# tar -zxvf jdk-7u75-linux-x64.tar.gz --解压jdk tar包

# mv jdk1.7.0_75/ /opt/modules/ --复制到软件安装目录

# vi /etc/profile --配置环境变量，在文件最后添加如下配置

export JAVA_HOME=/opt/modules/jdk1.7.0_75
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

# source /etc/profile --使环境变量立即生效

# java -version --检查配置

　　2. 创建用户账号

# groupadd hadoop --添加hadoop用户组

# useradd -g hadoop hadoop --添加hadoop用户并添加到hadoop组中

# passwd hadoop --为hadoop用户设置密码

安装hadoop

　　1. 解压hadoop

# tar -zxvf hadoop-2.5.2.tar.gz --解压tar包

# mv hadoop-2.5.2 /opt/modules/ --复制到安装目录

# cd /opt/modules/

# chown -R hadoop:hadoop hadoop-2.5.2 --修改用户和组

　　2. 配置环境变量

# vi /etc/profile  

export HADOOP_HOME=/opt/modules/hadoop-2.5.2
export PATH=$PATH:$HADOOP_HOME/bin

# source /etc/profile 
# hadoop version  --检查配置
Hadoop 2.5.2
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r cc72e9b000545b86b75a61f4835eb86d57bfafc0
Compiled by jenkins on 2014-11-14T23:45Z
Compiled with protoc 2.5.0
From source with checksum df7537a4faa4658983d397abf4514320
This command was run using /opt/modules/hadoop-2.5.2/share/hadoop/common/hadoop-common-2.5.2.jar

# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar pi 100 100 --解压后无需配置即可运行于独立模式下，例：计算π值

　　3. 配置SSH免密码登陆　　

　　hadoop用户下执行

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ chmod 644 authorized_keys --权限修改为rw-r-r

　　4. 配置hdfs

　　a. 修改hadoop-2.5.2/etc/hadoop目录下配置文件

　　> hadoop-env.sh

# vi hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_75 --显式配置JAVA_HOME，而非使用JAVA_HOME=${JAVA_HOME}

　　>core-site.xml

# vi core-site.xml

<property> --指定文件系统及主机、端口

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

　　>hdfs-site.xml

# vi hdfs-site.xml

<property> --配置副本数量，默认为3，伪分布式下若不配置，则会提示副本数不足

<name>dfs.replication</name>

</property>

</configuration>

　　b. 格式化文件系统

$ mkdir -p /opt/data/hadoop/hdfs/name --创建namenode文件存储目录

$ mkdir -p /opt/data/hadoop/hdfs/data --创建datanode数据存储目录

$ vi hdfs-site.xml

<property>   --默认存储在/tmp/hadoop-hadoop/dfs/name目录下，清空缓存时，集群数据丢失，且无法重建，后果非常严重
        <name>dfs.namenode.name.dir</name>
        <value>/opt/data/hadoop/hdfs/name</value>
</property>
<property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/data/hadoop/hdfs/data</value>
</property>

$ hdfs namenode –format

　　c. 启动namenode和datanode守护进程

$ ./sbin/start-dfs.sh --启动hdfs

$ jps --进程查看

SecondaryNameNode
Jps
DataNode
NameNode

　　通过访问localhost:50070访问namenode web页面

　　5. 启动yarn

　　a. 修改hadoop-2.5.2/etc/hadoop目录下配置文件

　　> mapred-site.xml

$ cp mapred-site.xml.template mapred-site.xml --复制模板文件，并命名为mapred-sit.xml

$ vi mapred-site.xml

<property> --local:本地作业运行器 classic:经典mapreduce框架 yarn:新框架

<name>mapreduce.framework.name</name>

</property>

　　>yarn-site.xml

$ vi yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

　　b. 启动yarn

$ ./sbin/start-yarn.sh

$ jps

SecondaryNameNode
Jps
DataNode
NameNode
ResourceManager
NodeManager

　　通过localhost:8088访问ResourceManager web页面

相关阅读:
python序列（五）切片操作
python序列（四）成员资格判断
python序列（三）列表元素访问与计数
python序列（二）列表的删除操作
Lua调用自定义C++类
TexturePacker的使用方法
随笔—邀请赛前练— Codeforces Round #329 (Div. 2) 2Char
随笔—邀请赛前练— Codeforces Round #328 (Div. 2) B. The Monster and the Squirrel
随笔—邀请赛前训—Codeforces Round #328 (Div. 2) A. PawnChess
随笔—邀请赛前训—Codeforces Round #327 (Div. 2) Rebranding

原文地址：https://www.cnblogs.com/zhaosk/p/4361516.html