• Hadoop权威指南学习笔记二


    MapReduce简单介绍

    声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步。

     转载请注明:http://blog.csdn.net/my_acm

    上一篇介绍了什么是Hadoop。Hadoop的作用等。本篇相同基于Hadoop权威指南,结合迪伦的Hadoop的视频教程对MapReduce做一个介绍。

    1、

    MapReduce是Hadoop的核心之中的一个。MapReduce分为两个部分,Mapper和Ruducer模块。简单来说就是前者完毕键值得映射,后者完毕整合过程。同是这两个模块也是编程和开发者能够对数据处理设计算法编程的地方。那么对于人员来说要用什么方法或者说是什么语言来写这些Map和Reduce函数呢?

    (1)      Hadoop是java语言开发的,那么自然就支持java接口的编程方式了,所以java的效率在Hadoop上执行的效率要相对照较高。以下也会重点结合迪伦的教程展示一下java怎样编写完毕mapreduce的。

    (2)      Hadoop管道(pipes)支持c/c++。

    (3)      同是Hadoop也提供了Hadoop流(streaming)支持其它语言如Python。Ruby等。

    2、

             MapReducejob是client执行的单位,通过将job分成若干个小的task(task当中包含map和reduce)来完毕。Hadoop通过把输入分成若干个等长的分片发送到MapReduce中处理。Hadoop为每一个分片创建一个map任务来执行map函数。

             以下是几种MapReduce执行图。


    3、

             WordCount(计算不同单词的个数)是MapReduce里面的一个问题。

    以下是Word Count的MapReduce的详细过程图及事实上现代码

            

     


  • 相关阅读:
    Ubuntu12下未知驱动器处理
    Octopress博客设置
    Windows下搭建Octopress博客
    在Asp.Net中使用JQueryEasyUI
    SQL查询将列转换成字符串(for xml path)
    IIS7上传出现乱码问题解决
    SqlServer开发利器—SQL Prompt5
    读《打造FaceBook》
    在VS2010中使用Git【图文】
    怎样提高开发效率
  • 原文地址:https://www.cnblogs.com/mengfanrong/p/5222409.html
Copyright © 2020-2023  润新知