大数据时代之hadoop(一)：hadoop安装

1、hadoop版本号介绍

0.20.2版本号曾经（不含该版本号）的配置文件都在default.xml中。

0.20.x以后的版本号不含有eclipse插件的jar包。因为eclipse的版本号不一。所以就须要自己编译源代码生成相应的插件。

0.20.2——0.22.x版本号的配置文件集中在conf/core-site.xml、 conf/hdfs-site.xml 和 conf/mapred-site.xml. 中。

0.23.x 版本号有加入了yarn技术。配置文件集中在 conf/core-site.xml, conf/hdfs-site.xml, conf/yarn-site.xml and conf/mapred-site.xml.这4个文件上。

因为0.23.x版本号的变化比較大。加入了新的技术，让非常多基于hadoop的一些插件难以兼容，如hive、hbase、pig等都基于0.23.x曾经的版本号。

所以apache就開始统一版本号号，这样从版本号号就能够区分hadoop的功能。

0.22.x 直接升级到1.0.0

0.23.x 直接升级到2.0.0

这样就把hadoop分为两个版本号 1和2

1版本号：主要基于原来的技术的升级和发展，同一时候支持其他技术的支持。

假设想用hbase、hive等技术就仅仅有选择版本号1

2版本号：主要基于新技术的推广和发展。假设仅仅是基于hadoop开发，这个是一个非常好的选择。

眼下官网上下载hadoop处描写叙述：

Download

1.2.X - current stable version, 1.2 release
2.4.X - current stable 2.x version
0.23.X - similar to 2.X.X but missing NN HA.

2、hadoop安装及模式

眼下，我在实验环境中使用的是hadoop-0.20.2，所以以后我都是基于这个版本号进行描写叙述。

Hadoop各个组件的配置在文件夹conf下。

早期的hadoop採用一个配置文件hadoop-site.xml来配置Common，HDFS和MapReduce组件，从0.20.0版本号開始，分为三个文件。

core-site.xml：配置Common组件的属性。
hdfs-site.xml：配置HDFS属性。

mapred-sit.xml：配置MapReduce属性。

2.1、Hadoop执行模式

Hadoop的执行模式有下面三种：

             独立模式（standalone或local mode）：无需不论什么守护进程（daemon），全部程序都在单个JVM上执行。主要用在开发阶段。默认属性就是为本模式所设，所以不须要额外的配置。
             伪分布式模式（pseudo-distributed model）：Hadoop守护进程执行在本地机器上，模拟一个小规模的集群。
             全分布模式（full distributed model）：Hadoop守护进程执行在一个集群上。

不同模式关键配置属性

组件名称	属性名称	独立模式	伪分布模式	全分布模式
Common	fs.default.name	file:/// (默认)	hdfs://localhost:9000	hdfs://namenode:9000
HDFS	dfs.replication	N/A	1	3 (默认)
MapReduce	mapred.job.tracker	local (默认)	localhost:9001	jobtracker:9001

2.2、本机模式安装

因为默认属性专为本模式所设定，且无需执行不论什么守护进程。因此本模式除了把dfs.replication值设为1外，无需不论什么别的操作。

測试：

进入$HADOOP_HOME文件夹下执行下面命令来測试安装是否成功

   $ mkdir input 
   $ cp conf/*.xml input 
   $ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 
   $ cat output/*

输出：
1 dfsadmin

经过上面的步骤，假设没有出现错误就算成功安装了。

2.3、伪分布式模式安装步骤

安装步骤：

          1、环境变量设置(JAVA_HOME,path,HADOOP_HOME,CLASSPATH)
           2、改动hadoop配置文件（core-site.xml，hdfs-site.xml，mapred-site.xml）
          3、设置ssh无password登陆
           4、格式化文件系统 hadoop namenode -format
          5、启动守护进程   start-all.sh
          6、停止守护进程

当中第二步实例：

<configuration> 
  <property> 
    <name>fs.default.name</name> 
    <value>localhost:9000</value> 
  </property> 
  <property> 
    <name>mapred.job.tracker</name> 
    <value>localhost:9001</value> 
  </property> 
  <property> 
    <name>dfs.replication</name> 
    <value>1</value> 
  </property> 
</configuration>

启动后能够通过网页方式查看NameNode和JobTracker状态
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/

測试：

拷贝文件到分布式文件系统上

$ bin/hadoop fs -put conf input

执行測试

$ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'

获取測试程序的执行结果

$ bin/hadoop fs -cat output/*

输出：

   3 dfs.class
   2 dfs.period
   1 dfs.file
   1 dfs.replication
   1 dfs.servers
   1 dfsadmin
   1 dfsmetrics.log

经过上面的步骤。假设没有出现错误就算成功安装了。

2.4、全分布模式安装步骤

安装步骤：

            1、环境变量设置(JAVA_HOME,path,HADOOP_HOME,CLASSPATH)
            2、改动hadoop配置文件（core-site.xml。hdfs-site.xml，mapred-site.xml，masters。slaves）
            3、设置ssh无password登陆
            4、格式化文件系统 hadoop namenode -format
            5、启动守护进程   start-all.sh
            6、停止守护进程

启动后可以通过网页方式查看NameNode和JobTracker状态
NameNode - http://namenode:50070/
JobTracker - http://jobtracker:50030/

注意：
在每一个机器上的同样位置分别安装hadoop。且username同样。

3、eclipse插件安装

eclipse hadoop插件，是为了高速开发mapreduce程序，提供了

mapreduce location视图。用于设置mapreduce变量。

windows->preferences 添加了设置hadoop安装位置设置栏。

在Project Explore视图里面添加了DFS Locations项目，可以查看hdfs文件系统的内容，并可以上传下载文件；

new project 里面添加了mapreduce project；

添加了run on hadoop平台功能。

须要注意的是hadoop自带的contribeclipse-pluginhadoop-0.20.2-eclipse-plugin.jar过时了，须要从网上下载一个新的，否则在执行mapreduce程序时没有反应。

相关阅读:
C#在与java对接时候的UrlEncode的坑
sql server 删除大量数据的一次坑爹之旅
js实现黑客帝国文字下落效果
第一个SignalR案例
简单的放天灯动画
计量单位符号的书写规范【转】
阿里云OSS搭建移动应用直传服务的.Net C#示例
UWP Windows10开发更新磁贴和动态更新磁贴
UWP Windows10开发获取设备位置（经纬度）
Asp.Net识别手机访问

原文地址：https://www.cnblogs.com/slgkaifa/p/7145451.html