大数据面试题V3.0 Spark面试题（约9.8w字）

大数据面试题V3.0 Spark面试题（约9.8w字）
Spark面试题（约9.8w字）
1. Spark的任务执行流程
2. Spark的运行流程
3. Spark的作业运行流程是怎么样的?
4. Spark的特点
5. Spark源码中的任务调度
6. Spark作业调度
7. Spark的架构
8. Spark的使用场景
9. Spark on standalone模型、YARN架构模型(画架构图)
10. Spark的yarn-cluster涉及的参数有哪些?
11. Spark提交job的流程
12. Spark的阶段划分
13. Spark处理数据的具体流程说下
14. Sparkjoin的分类
15. Spark map join的实现原理
16. 介绍下Spark Shuffle及其优缺点
17. 什么情况下会产生Spark Shuffle?
18. 为什么要Spark Shuffle?
19. Spark为什么快?
20. Spark为什么适合迭代处理?
21. Spark数据倾斜问题，如何定位，解决方案
22. Spark的stage如何划分?在源码中是怎么判断属于Shuffle Map Stage或Result Stage的?
23. Spark join在什么情况下会变成窄依赖?
24. Spark的内存模型?
25. Spark分哪几个部分(模块)?分别有什么作用(做什么，自己用过哪些，做过什么)?
26. RDD的宽依赖和窄依赖，举例一些算子
27. Spark SQL的GroupBy会造成窄依赖吗?
28. GroupBy是行动算子吗
29. Spark的宽依赖和窄依赖，为什么要这么划分?
30. 说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action?常用的列举一些，说下算子原理
31. Spark的哪些算子会有shuffle过程?
32. Spark有了RDD，为什么还要有Dataform和DataSet?
33. Spark的RDD、DataFrame、DataSet、DataStream区别?
34. Spark的Job、Stage、Task分别介绍下，如何划分?
35. Application、job、Stage、task之间的关系
36. Stage内部逻辑
37. 为什么要根据宽依赖划分Stage?为
38. 什么要划分Stage
39. Stage的数量等于什么
40. 对RDD、DAG和Task的理解
41. DAG为什么适合Spark?
42. 介绍下Spark的DAG以及它的生成过程
43. DAGScheduler如何划分?干了什么活?
44. Spark容错机制?
45. RDD的容错
46. Executor内存分配?
47. Spark的batchsize，怎么解决小文件合并问题?
48. Spark参数(性能)调优
49. 介绍一下Spark怎么基于内存计算的
50. 说下什么是RDD(对RDD的理解)?RDD有哪些特点?说下知道的RDD算子
51. RDD底层原理
52. RDD属性
53. RDD的缓存级别?
54. Spark广播变量的实现和原理?
55. reduceByKey和groupByKey的区别和作用?
56. reduceByKey和reduce的区别?
57. 使用reduceByKey出现数据倾斜怎么办?
58. Spark SQL的执行原理?
59. Spark SQL的优化?
60. 说下Spark checkpoint
61. Spark SQL与DataFrame的使用?
62. Sparksql自定义函数?怎么创建DataFrame?
63. HashPartitioner和RangePartitioner的实现
64. Spark的水塘抽样
65. DAGScheduler、TaskScheduler、SchedulerBackend实现原理
66. 介绍下Sparkclient提交application后，接下来的流程?
67. Spark的几种部署方式
68. 在Yarn-client情况下，Driver此时在哪
69. Spark的cluster模式有什么好处
70. Driver怎么管理executor
71. Spark的map和flatmap的区别?
72. Spark的cache和persist的区别?它们是transformaiton算子还是action算子?
73. Saprk Streaming从Kafka中读取数据两种方式?
74. Spark Streaming的工作原理?
75. Spark Streaming的DStream和DStreamGraph的区别?
76. Spark输出文件的个数，如何合并小文件?
77. Spark的driver是怎么驱动作业流程的?
78. Spark SQL的劣势?
79. 介绍下Spark Streaming和Structed Streaming
80. Spark为什么比Hadoop速度快?
81. DAG划分Spark源码实现?
82. Spark Streaming的双流join的过程，怎么做的?
83. Spark的Block管理
84. Spark怎么保证数据不丢失
85. Spark SQL如何使用UDF?
86. Spark温度二次排序
87. Spark实现wordcount
88. Spark Streaming怎么实现数据持久化保存?
89. Spark SQL读取文件，内存不够使用，如何处理?
90. Spark的lazy体现在哪里?
91. Spark中的并行度等于什么
92. Spark运行时并行度的设署
93. Spark SQL的数据倾斜
94. Spark的exactly-once
95. Spark的RDD和partition的联系
96. park 3.0特性
97. Spark计算的灵活性体现在哪里
相关阅读:
跟我一起来学ORACLE开发系列之三sql语法篇老猫
 浅谈Oracle DBlink搭建老猫
 一个合格的Oracle DBA的速成法摘录老猫
 Oracle数据库设计要做到五戒老猫
 Oracle分析函数参考手册一老猫
 Oracle10G常用维护语句老猫
 数据库设计中的敏捷方法老猫
 oracle数据字典总结老猫
 DBA 1.0与DBA眼中的DBA 2.0时代老猫
 海水的绘制 szlongman
原文地址：https://www.cnblogs.com/chang09/p/16419526.html