大数据面试题V3.0 MapReduce部分

大数据面试题V3.0 MapReduce部分
MapReduce部分
1. 介绍下MapReduce
2. MapReduce优缺点
3. MapReduce架构
4. MapReduce工作原理
5. MapReduce哪个阶段最费时间
6. MapReduce中的Combine是干嘛的?有什么好外?
7. MapReduce为什么一定要有环型缓冲区
8. MapReduce为什么一定要有Shuffle过程
9. MapReduce的Shuffle过程及其优化
10. Reduce怎么知道去哪里拉Map结果集?
11. Reduce阶段都发生了什么，有没有进行分组
12. MapReduce Shuffle的排序算法
13. shuffle为什么要排序?
14. 说一下map是怎么到reduce的?
15. 说一下你了解的用哪几种shuffle机制?
16. MapReduce的数据处理过程
17. mapjoin的原理(实现)?应用场景?
18. reducejoin如何执行(原理)
19. MapReduce为什么不能产生过多小文件
20. MapReduce分区及作用
21. ReduceTask数量和分区数量关系
22. Map的分片有多大
23. MapReduce join两个表的流程?
24. 手撕一段简单的MapReduce程序
25. reduce任务什么时候开始?
26. MapReduce的reduce使用的是什么排序?
27. MapReduce怎么确定MapTask的数量?
28. Map数量由什么决定
29. MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量?
30. MapReduce的task数目划分
31. MapReduce作业执行的过程中，中间的数据会存在什么地方?不会存在内存中么?
32. Mapper端进行combiner之后，除了速度会提升，那从Mapper端到Reduece端的数据量会怎么变?
33. map输出的数据如何超出它的小文件内存之后，是落地到磁盘还是落地到HDFS中?
34. Map到Reduce默认的分区机制是什么?
35. 结合wordcount述说MapReduce，具体各个流程，map怎么做，reduce怎么做
36. MapReduce数据倾斜产生的原因及其解决方案
37. Map Join为什么能解决数据倾斜
38. MapReduce运行过程中会发生OOM，OOM发生的位置？
39. MapReduce用了几次排序，分别是什么？
40. MapReduce压缩方式
41. MapReduce中怎么处理一个大文件
相关阅读:
Ubuntu 12.04.2 发布
 HornetQ 2.3.0.CR1 发布，异步消息系统
 Django 1.5.1 发布，修复内存泄漏问题
 Subclipse 1.8.20 发布，Eclipse 的 SVN 插件
 Cython 0.18 发布，Python 的 C 语言扩展
 GlusterFS 正式推出，支持 OpenStack
瀑布流布局图片URL以blob格式展示
 Windows 开发环境使用 mkcert 为本机 localhost 自签 SSL 证书
 Windows手动添加服务 sc create
FileZilla Server 新版配置教程，550错误解决
原文地址：https://www.cnblogs.com/chang09/p/16419557.html