Hadoop单机模式配置

Hadoop单机模式配置
本作品由Man_华创作，采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
基于http://www.cnblogs.com/manhua/上的作品创作。

默认情况下，Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试非常有帮助。

(只有一个JVM进程，没有分布式，不使用HDFS)

环境：

Java 查看安装教程

Ubuntu13.10(32位/64位均可) 下载

hadoop-2.2.0.tar.gz 更新发布下载

安装：

在用户主目录新建文件夹hadoop，Hadoop将安装在该目录~/hadoop

Hadoop安装
```
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.2.0/hadoop-3.2.0.tar.gz  

INSTALL_PATH=/opt/soft
TAR_FILE=`pwd`/hadoop-3.2.0.tar.gz 

# 安装
mkdir -p $INSTALL_PATH
tar -xzf $TAR_FILE -C $INSTALL_PATH
HADOOP_FOLDER=`tar -tvzf $TAR_FILE |head -1 |awk -F' ' {'print $6'} |awk -F'/' {'print $1'}`
ln -s $INSTALL_PATH/$HADOOP_FOLDER $INSTALL_PATH/hadoop

# 修改系统环境变量
echo -e '

#Hadoop' >> /etc/profile
echo 'export HADOOP_HOME='$INSTALL_PATH'/hadoop' >> /etc/profile
echo 'export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH' >> /etc/profile

# 测试
source /etc/profile
hadoop version
```
运行测试 (注：Hadoop刚完成安装不修改配置文件即为单机模式)

测试一：wordcount

在主文件下新建hadoopTest文件夹，创建in子文件夹，创建任意文本文档内容
```
cd ~/hadoop/hadoop/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount ~/hadoopTest/in ~/hadoopTest/out
```
查看结果
```
cat ~/hadoopTest/out/part-r-00000
```
hadoop单机运行可以不打包成jar： hadoop 主类名 [输入输出目录等参数]
相比用java运行，使用hadoop命令会自动添加hadoop库文件到classpath

[注意]要实现不打包运行，需要修改环境变量
```
sudo gedit /etc/profile
```
```
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:.
```
输出命名方式：
map输出：part-m-nnnnn
reduce输出：part-r-nnnnn
其中nnnnn为分块序号，从0开始。
分布式下Map的输出是在硬盘上而不是hdfs，因为它作为中间结果是临时的，一旦写入hdfs就会分布式存储并备份。

example中的样例程序说明

资料：

Hadoop - YDN https://developer.yahoo.com/hadoop/
相关阅读:
数据库连接，报错--mysql版本不匹配
 SpringMVC项目如何添加事物呢
 将存放数字的list，顺序排列，然后，判断，数字是否是连续的
 list从小到大，排序----这么简单
 SpringMVC控制层，setViewName--不能跳转到指定视图
 SpringMVC中jsp和controller互传参的问题
 jsp到controller乱码
 PDF 补丁丁 0.4.1 版：新增嵌入中文字库、替换文档字库的功能
 PDF 补丁丁 0.4.1 版将增加嵌入中文字库的功能
 Django视图层
原文地址：https://www.cnblogs.com/manhua/p/3529928.html

Hadoop单机模式配置

环境：

安装：

Hadoop安装

运行测试 (注：Hadoop刚完成安装不修改配置文件即为单机模式)