• 大数据面试题V3.0 MapReduce部分


     

    MapReduce部分

    1. 介绍下MapReduce

    2. MapReduce优缺点

    3. MapReduce架构

    4. MapReduce工作原理

    5. MapReduce哪个阶段最费时间

    6. MapReduce中的Combine是干嘛的?有什么好外?

    7. MapReduce为什么一定要有环型缓冲区

    8. MapReduce为什么一定要有Shuffle过程

    9. MapReduce的Shuffle过程及其优化

    10. Reduce怎么知道去哪里拉Map结果集?

    11. Reduce阶段都发生了什么,有没有进行分组

    12. MapReduce Shuffle的排序算法

    13. shuffle为什么要排序?

    14. 说一下map是怎么到reduce的?

    15. 说一下你了解的用哪几种shuffle机制?

    16. MapReduce的数据处理过程

    17. mapjoin的原理(实现)?应用场景?

    18. reducejoin如何执行(原理)

    19. MapReduce为什么不能产生过多小文件

    20. MapReduce分区及作用

    21. ReduceTask数量和分区数量关系

    22. Map的分片有多大

    23. MapReduce join两个表的流程?

    24. 手撕一段简单的MapReduce程序

    25. reduce任务什么时候开始?

    26. MapReduce的reduce使用的是什么排序?

    27. MapReduce怎么确定MapTask的数量?

    28. Map数量由什么决定

    29. MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量?

    30. MapReduce的task数目划分

    31. MapReduce作业执行的过程中,中间的数据会存在什么地方?不会存在内存中么?

    32. Mapper端进行combiner之后,除了速度会提升,那从Mapper端到Reduece端的数据量会怎么变?

    33. map输出的数据如何超出它的小文件内存之后,是落地到磁盘还是落地到HDFS中?

    34. Map到Reduce默认的分区机制是什么?

    35. 结合wordcount述说MapReduce,具体各个流程,map怎么做,reduce怎么做

    36. MapReduce数据倾斜产生的原因及其解决方案

    37. Map Join为什么能解决数据倾斜

    38. MapReduce运行过程中会发生OOM,OOM发生的位置?

    39. MapReduce用了几次排序,分别是什么?

    40. MapReduce压缩方式

    41. MapReduce中怎么处理一个大文件

  • 相关阅读:
    深入浅出HTTP协议
    HTTP协议 URL
    HTTP Request
    HTTP 响应
    浅谈OpenStack架构
    Google云平台技术架构
    接口文档神器之apidoc
    .haccess 配置生效
    php namespace与use
    mysql 带条件的sum/count 使用技巧
  • 原文地址:https://www.cnblogs.com/chang09/p/16419557.html
Copyright © 2020-2023  润新知