• 分布式并行计算MapReduce


    作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

    1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。

    答:MapReduce顾义为大量数据的高效处理,其功能:1)数据划分和计算任务调度:2)数据/代码互定位:3)系统优化:4)出错检测和恢复:

    工作原理:

         一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理 Map输出由Reduce处理输出结果,存入分布式文件系统。

     工做流程:

        Map通常运行在数据存储的结点上,不同的Map任务之间不会进行通信 不同的Reduce任务之间也不会发生任何信息交换, 用户不能显式地从一台机器向另一台机器发送消息 所有的数据交换都是通过MapReduce框架自身去实现的。

    HDFS顾名思义为大规模数据的高效存储

    其功能为:

      1.元数据
        Metadata,维护文件和目录信息,分为内存元数据和元数据文件
        NameNode主要存储元数据镜像文件Fsimage和日志文件Edits
        Fsimage记录某一永久性检查点时整个HDFS的元信息
        Edits所有对HDFS的写操作都会记录在此文件
      2.检查点
        定期对NameNode中的文件进行备份,NameNode启动时会将最新的Fsimage加载到内存中
        由secondary namenode完成namenode备份,后者损坏后前者将fsimage拷贝到namenode工作目录,恢复其元数据
        触发条件分为两次检查点间隔时间和两次检查点操作数两种
      3.DataNode功能
        存储管理用户的文件块数据,默认128M/block
        定期汇报块信息给namenode,默认3600000ms(1小时一次)

    HDFS工作原理:Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的 机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

    工作过程:客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本。客户端将要读取的文件路径发送给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

    2.HDFS上运行MapReduce

    1)准备文本文件,放在本地/home/hadoop/wc

    2)编写map函数和reduce函数,在本地运行测试通过

    3)启动Hadoop:HDFS, JobTracker, TaskTracker

    4)把文本文件上传到hdfs文件系统上 user/hadoop/input 

    5)streaming的jar文件的路径写入环境变量,让环境变量生效

    6)建立一个shell脚本文件:streaming接口运行的脚本,名称为run.sh

    7)source run.sh来执行mapreduce

    8)查看运行结果

  • 相关阅读:
    log4j使用方法(一)——先跑起来再说
    umasuo—ubuntu G++的安装
    Linux使用SVN server的简单介绍
    BeanUtils中copyProperties方法的使用
    标准化安装_RHEL5.5(X64)_Oracle10gR2
    Learn How To Use Oracle Flashback
    Learn How To Use Oracle Audit
    idea导入本地的eclipse项目
    Docker 资源汇总
    Docker Dockerfile
  • 原文地址:https://www.cnblogs.com/zy5250/p/10966568.html
Copyright © 2020-2023  润新知