Hadoop入门学习随笔

Hadoop入门学习随笔

推荐视频：慕课网http://www.imooc.com/video/8107

===Hadoop是什么？

开源的、分布式存储+分布式计算平台。

http://hadoop.apache.org

===Hadoop的组成

包括两个核心组成：

HDFS：分布式文件系统，存储海量的数据

MapReduce：并行处理框架，实现任务分解和调度

===Hadoop可以用来做什么？

搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。

===Hadoop的优势：

高扩展：理论上是可以做到无限的，因为在它的设计框架下面，可以通过一些简单的增加一些硬件来提升性能和容量

低成本：借鉴Google的思想，借助普通的PC机就可以实现。

成熟的生态圈：借助开源的力量，围绕Hadoop有很多开源的工具。

===Hadoop的应用情况

===Hadoop生态系统

*HDFS全称：Hadoop Distributed File System

常用开源工具有：

Hive：利用Hive可以不用编写复杂的Hadoop任务程序，只需要写一个SQL语句，Hive就会将SQL转换成一个Hadoop任务。降低了使用Hadoop的门槛。

HBase：存储结构化数据的分布式数据库。与传统的关系型数据库不同，HBase放弃了事务这个特性，追求更高的扩展。和HDFS不同，HBase提供数据的随机读写和实时访问，实现对数据库的读写功能。

zookeeper：动物管理员。就像动物管理员一样，它要监控Hadoop集群里面每个节点的状态，管理整个集群的配置，维护节点之间的数据一致性等等。

===Hadoop的安装

（1）前提准备

①、安装JDK

②、配置无秘钥访问。

（2）配置文件

我这里使用的是hadoop-2.5.1。各个配置文件的详解，可以参考一下两个网站：

官网：http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/ClusterSetup.html

博客：http://blog.163.com/yangshaohui_2004/blog/static/618545020144495622847/

博客：http://slaytanic.blog.51cto.com/2057708/1101111/

（3）环境变量

vim /etc/profile

export HADOOP_HOME=/opt/hadoop1.2.1

exprot PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$PATH

source /etc/profile

（4）结果验证

配置完了之后，在任意位置输入hadoop命令，都应该可以正常执行。

在执行之前，需要对namenode进行格式化操作：hadoop namenode -format

使用start-all.sh启动hadoop。

使用jps命令查看hadoop是否正常执行，正常执行时的进程如下：

7005 JobTracker

7329 Jps

6824 DataNode

7259 TaskTracker

6647 NameNode

7001 SecondaryNameNode

===HDFS的基本概念

-块（Block）　　HDFS的文件被分成块进行存储，块的默认大小64MB，块是文件存储处理的逻辑单元。

-NameNode　　是管理节点，存放文件元数据。包括：①文件与数据块的映射表，②数据块与数据节点的映射表

-DataNode　　 HDFS的工作节点，存放数据块。

===HDFS数据管理策略

1）数据块的放置：每个数据块3个副本，分布在两个机器内的三个节点。

2）心跳检测：DataNode与NameNode之间有一个心跳协议，每隔多少秒钟DataNode会想NameNode报告状况（发送心跳信息）。

3）二级NameNode：二级NameNode定期同步元数据映像文件和修改日志。NameNode发生故障时，备胎转正。

===HDFS读取文件的流程

1）从客户端向NameNode发送读取数据请求。这个请求可能是一个Java程序，也可能是一个命令行。

2）NameNode返回元数据信息。告诉客户端，这些数据都有哪些块，这些块都在哪里可以找到等。

3）客户端从DataNode中下载数据块并进行组装。

===HDFS写入文件的流程

1）将文件拆分成固定大小的块，通知NameNode。

2）NameNode会找到一些可用的DataNode返回给客户端。

3）根据返回的结果将数据块写入DataNode。写入时，先写入一个块。

4）对写入的数据块进行进行流水线复制。

5）更新元数据。告诉NameNode更新已经完成，创建了一个新的数据块。

===HDFS特点：

1、数据冗余，硬件容错

2、流式的数据访问：就是一次写入多次读取，一旦写入之后不会进行修改。

3、适合存储大文件。如果大量的小文件的话，NameNode的压力会很大。

4、适用性和局限性

-适合数据批量读写、吞吐量高

-不适合交互式应用，低延迟很难满足

-适合一次写入多次读取，顺序读写

-不支持多用户并发写相同文件

===HDFS使用

HDFS里面提供了Shell接口。

hadoop namenode -farmat：安装完hadoop在启动之前的格式化命令

hadoop fs -ls /xxxx：打印当前HDFS的文件夹。/xxxx为要打印的文件夹路径。/为根目录。

hadoop fs -put xxxx：将本地文件提交到HDFS。xxxx为要提交的文件名。

hadoop fs -mkdir xxxx：建立路径。xxxx为要建立的路径。

hadoop fs -rm xxxx：删除文件。xxxx为要删除的文件。

hadoop fs -cat xxxx：查看文件。xxxx为要查看的文件。

hadoop fs -get xxxx yyyy：从HDFS下载文件至本地。xxxx为要下载的文件名，yyyy为本地路径。

hadoop dfsadmin -report：查看文件系统的所有信息。

===什么是MapReduce？

简单的说MapReduce采用了分而治之的思想，将一个大任务分成多个小的子任务（Map），

然后由多个小节点并行执行然后合并结果，合并的过程就是（Reduce）。

其实，很多计算的任务都可以抽象成两个步骤，一个Map、一个Reduce。

如：找出5000张扑克中，缺失的一张。

再如：100GB的网站访问日志文件，找出访问次数最多的IP地址

1）先把日志进行切分。如按时间切分。

2）统计没份文件中相同IP的访问次数。

3）根据一定的规则进行交换，归约IP的访问次数。

网上摘录的对 MapReduce 的最简洁明了的解析：

我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。

现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。

===MapReduce的运行流程（Hadoop1.X）

--Job&Task：

一个任务/作业。

如找出访问次数最多的IP地址。一个Job下分为多个Task，Task又分为MapTask和ReduceTask。

--JobTracker：

一个Mast管理节点。

负责接收客户端的任务，将任务房到候选队列里面，在适当的时候进行调度，选择一个Job出来，将Job分成多个Map和Reduce，然后分发给TaskTracker来处理。总结来说JobTracker的角色如下：

•作业调度

•分配任务、监控任务执行进度（TaskTracker在做的时候会定时给JobTracker通知状态）

•监控TaskTracker的状态

--TaskTracker：

在部署的时候，TackTracker往往和HDFS的DataNode是同一组物理节点，以保证计算是跟着数据走。总结来说TaskTracker的角色如下：

•执行任务

•汇报任务状态

===MapReduce作业执行过程

对输入数据进行分片，按照一定的规则分给TaskTracker。分配Map任务。

任务处理好之后产生一个中间结果（key-value对），key和value根据一些映射规则进行交换。

然后到Reduce端进行处理，运算完之后，数据结果写会到HDFS里面。

Map-Reduce可以进行多次。完成复杂的计算操作。

===MapReduce的容错机制

有两种机制：

1）重复执行：默认重复执行4次只有，如果仍然出错，将放弃执行

2）推测执行：在整个任务执行过程中，需要等待整个Map端都计算完成之后，Reduce端才会开始。

这个时候，可能会存在某个节点计算特别慢。JobTracker一旦发现这种情况，将重新安排一个TaskTracker去做同样的事情，只要这个事情两者谁先完成，就会将另一个终止执行。

===MapReduce应用案例（WordCount单词计数）

1）思考实现过程

计算文件中出现每个单词的频数，输出结果按照字母顺序排序。

2）编写实现代码。如WordCount.java，包含Mapper类和Reducer类。

3）编译WordCount.java成Class。命令如下：

　　javac -classpath /opt/hadoop-1.2.1/hadoop-cour-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java

4）打包。命令如下例:

　　jar -cvf WordCount.jar *.classes

5）作业提交。命令如下：

　　hadoop jar WordCount.jar WordCount input output

===利用MapReduce进行排序

数据排序是许多任务数据中的第一项任务。

基本思路：将数据进行分片，然后进行Reduce真正排序。如下例：

--END--
相关阅读:
Rational全系列工具介绍
 转贴 MM（ModelMaker）建模工具快速上手指南delphi
eclipse打不开报(Failed to create the Java Virtual Machine)解决方法
 Vagrant系列(二)Vagrant的配置文件Vagrantfile详解
 Xshell登录Vagrant方式
 win10系统在执行“ vagrant box add centos7 vagrantcentos7.box”添加box时，报错“Vagrant failed to initialize at a...
win10系统搭建vagrant时开启bios,虚拟化问题
 查看memcache版本
 python空为None
python 获得字符串长度
原文地址：https://www.cnblogs.com/quchunhui/p/5335259.html