• 大数据面试题V3.0 Spark面试题(约9.8w字)



    Spark面试题(约9.8w字)

    1. Spark的任务执行流程

    2. Spark的运行流程

    3. Spark的作业运行流程是怎么样的?

    4. Spark的特点

    5. Spark源码中的任务调度

    6. Spark作业调度

    7. Spark的架构

    8. Spark的使用场景

    9. Spark on standalone模型、YARN架构模型(画架构图)

    10. Spark的yarn-cluster涉及的参数有哪些?

    11. Spark提交job的流程

    12. Spark的阶段划分

    13. Spark处理数据的具体流程说下

    14. Sparkjoin的分类

    15. Spark map join的实现原理

    16. 介绍下Spark Shuffle及其优缺点

    17. 什么情况下会产生Spark Shuffle?

    18. 为什么要Spark Shuffle?

    19. Spark为什么快?

    20. Spark为什么适合迭代处理?

    21. Spark数据倾斜问题,如何定位,解决方案

    22. Spark的stage如何划分?在源码中是怎么判断属于Shuffle Map Stage或Result Stage的?

    23. Spark join在什么情况下会变成窄依赖?

    24. Spark的内存模型?

    25. Spark分哪几个部分(模块)?分别有什么作用(做什么,自己用过哪些,做过什么)?

    26. RDD的宽依赖和窄依赖,举例一些算子

    27. Spark SQL的GroupBy会造成窄依赖吗?

    28. GroupBy是行动算子吗

    29. Spark的宽依赖和窄依赖,为什么要这么划分?

    30. 说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?常用的列举一些,说下算子原理

    31. Spark的哪些算子会有shuffle过程?

    32. Spark有了RDD,为什么还要有Dataform和DataSet?

    33. Spark的RDD、DataFrame、DataSet、DataStream区别?

    34. Spark的Job、Stage、Task分别介绍下,如何划分?

    35. Application、job、Stage、task之间的关系

    36. Stage内部逻辑

    37. 为什么要根据宽依赖划分Stage?为

    38. 什么要划分Stage

    39. Stage的数量等于什么

    40. 对RDD、DAG和Task的理解

    41. DAG为什么适合Spark?

    42. 介绍下Spark的DAG以及它的生成过程

    43. DAGScheduler如何划分?干了什么活?

    44. Spark容错机制?

    45. RDD的容错

    46. Executor内存分配?

    47. Spark的batchsize,怎么解决小文件合并问题?

    48. Spark参数(性能)调优

    49. 介绍一下Spark怎么基于内存计算的

    50. 说下什么是RDD(对RDD的理解)?RDD有哪些特点?说下知道的RDD算子

    51. RDD底层原理

    52. RDD属性

    53. RDD的缓存级别?

    54. Spark广播变量的实现和原理?

    55. reduceByKey和groupByKey的区别和作用?

    56. reduceByKey和reduce的区别?

    57. 使用reduceByKey出现数据倾斜怎么办?

    58. Spark SQL的执行原理?

    59. Spark SQL的优化?

    60. 说下Spark checkpoint

    61. Spark SQL与DataFrame的使用?

    62. Sparksql自定义函数?怎么创建DataFrame?

    63. HashPartitioner和RangePartitioner的实现

    64. Spark的水塘抽样

    65. DAGScheduler、TaskScheduler、SchedulerBackend实现原理

    66. 介绍下Sparkclient提交application后,接下来的流程?

    67. Spark的几种部署方式

    68. 在Yarn-client情况下,Driver此时在哪

    69. Spark的cluster模式有什么好处

    70. Driver怎么管理executor

    71. Spark的map和flatmap的区别?

    72. Spark的cache和persist的区别?它们是transformaiton算子还是action算子?

    73. Saprk Streaming从Kafka中读取数据两种方式?

    74. Spark Streaming的工作原理?

    75. Spark Streaming的DStream和DStreamGraph的区别?

    76. Spark输出文件的个数,如何合并小文件?

    77. Spark的driver是怎么驱动作业流程的?

    78. Spark SQL的劣势?

    79. 介绍下Spark Streaming和Structed Streaming

    80. Spark为什么比Hadoop速度快?

    81. DAG划分Spark源码实现?

    82. Spark Streaming的双流join的过程,怎么做的?

    83. Spark的Block管理

    84. Spark怎么保证数据不丢失

    85. Spark SQL如何使用UDF?

    86. Spark温度二次排序

    87. Spark实现wordcount

    88. Spark Streaming怎么实现数据持久化保存?

    89. Spark SQL读取文件,内存不够使用,如何处理?

    90. Spark的lazy体现在哪里?

    91. Spark中的并行度等于什么

    92. Spark运行时并行度的设署

    93. Spark SQL的数据倾斜

    94. Spark的exactly-once

    95. Spark的RDD和partition的联系

    96. park 3.0特性

    97. Spark计算的灵活性体现在哪里

  • 相关阅读:
    Java 对象初始化
    Java 栈和堆
    值得细品
    磁盘的分区、格式化与挂载
    VirtualBox预存空间不足
    做个备忘
    SQL查数据库有哪些触发器,存储过程...
    SQL 中 CASE
    FMX的Style中的Effects的注意问题
    Python图像处理库(2)
  • 原文地址:https://www.cnblogs.com/chang09/p/16419526.html
Copyright © 2020-2023  润新知