分布式并行计算MapReduce

分布式并行计算MapReduce

作业要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。

答：MapReduce顾义为大量数据的高效处理，其功能：1）数据划分和计算任务调度：2）数据/代码互定位：3）系统优化：4）出错检测和恢复：

工作原理：

　　　一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理 Map输出由Reduce处理输出结果，存入分布式文件系统。

工做流程：

　　　　Map通常运行在数据存储的结点上，不同的Map任务之间不会进行通信不同的Reduce任务之间也不会发生任何信息交换，用户不能显式地从一台机器向另一台机器发送消息所有的数据交换都是通过MapReduce框架自身去实现的。

HDFS顾名思义为大规模数据的高效存储

其功能为：

　　1.元数据
　　　　Metadata,维护文件和目录信息,分为内存元数据和元数据文件
　　　　NameNode主要存储元数据镜像文件Fsimage和日志文件Edits
　　　　Fsimage记录某一永久性检查点时整个HDFS的元信息
　　　　Edits所有对HDFS的写操作都会记录在此文件
　　2.检查点
　　　　定期对NameNode中的文件进行备份,NameNode启动时会将最新的Fsimage加载到内存中
　　　　由secondary namenode完成namenode备份,后者损坏后前者将fsimage拷贝到namenode工作目录,恢复其元数据
　　　　触发条件分为两次检查点间隔时间和两次检查点操作数两种
　　3.DataNode功能
　　　　存储管理用户的文件块数据,默认128M/block
　　　　定期汇报块信息给namenode,默认3600000ms(1小时一次)

HDFS工作原理：Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

工作过程：客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

2.HDFS上运行MapReduce

1）准备文本文件，放在本地/home/hadoop/wc

2）编写map函数和reduce函数，在本地运行测试通过

3）启动Hadoop：HDFS, JobTracker, TaskTracker

4）把文本文件上传到hdfs文件系统上 user/hadoop/input

5）streaming的jar文件的路径写入环境变量，让环境变量生效

6）建立一个shell脚本文件：streaming接口运行的脚本，名称为run.sh

7）source run.sh来执行mapreduce

8）查看运行结果
相关阅读:
20220424 Java核心技术卷2 高级特性 4
20220424 Java核心技术卷2 高级特性 12
20220424 Java核心技术卷2 高级特性 2
20220424 Java核心技术卷2 高级特性 1
20220424 Java核心技术卷2 高级特性 5
20220424 Java核心技术卷2 高级特性 6
多个modal遮罩层覆盖不全的问题
 ROCRK3588SPC八核8K人工智能开源主板
 RK3568行业平板人脸识别解决方案
 K8S中pod和container的资源管理：CPU和Memory
原文地址：https://www.cnblogs.com/zy5250/p/10966568.html