Spark面试题(约9.8w字)
-
Spark的任务执行流程
-
Spark的运行流程
-
Spark的作业运行流程是怎么样的?
-
Spark的特点
-
Spark源码中的任务调度
-
Spark作业调度
-
Spark的架构
-
Spark的使用场景
-
Spark on standalone模型、YARN架构模型(画架构图)
-
Spark的yarn-cluster涉及的参数有哪些?
-
Spark提交job的流程
-
Spark的阶段划分
-
Spark处理数据的具体流程说下
-
Sparkjoin的分类
-
Spark map join的实现原理
-
介绍下Spark Shuffle及其优缺点
-
什么情况下会产生Spark Shuffle?
-
为什么要Spark Shuffle?
-
Spark为什么快?
-
Spark为什么适合迭代处理?
-
Spark数据倾斜问题,如何定位,解决方案
-
Spark的stage如何划分?在源码中是怎么判断属于Shuffle Map Stage或Result Stage的?
-
Spark join在什么情况下会变成窄依赖?
-
Spark的内存模型?
-
Spark分哪几个部分(模块)?分别有什么作用(做什么,自己用过哪些,做过什么)?
-
RDD的宽依赖和窄依赖,举例一些算子
-
Spark SQL的GroupBy会造成窄依赖吗?
-
GroupBy是行动算子吗
-
Spark的宽依赖和窄依赖,为什么要这么划分?
-
说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?常用的列举一些,说下算子原理
-
Spark的哪些算子会有shuffle过程?
-
Spark有了RDD,为什么还要有Dataform和DataSet?
-
Spark的RDD、DataFrame、DataSet、DataStream区别?
-
Spark的Job、Stage、Task分别介绍下,如何划分?
-
Application、job、Stage、task之间的关系
-
Stage内部逻辑
-
为什么要根据宽依赖划分Stage?为
-
什么要划分Stage
-
Stage的数量等于什么
-
对RDD、DAG和Task的理解
-
DAG为什么适合Spark?
-
介绍下Spark的DAG以及它的生成过程
-
DAGScheduler如何划分?干了什么活?
-
Spark容错机制?
-
RDD的容错
-
Executor内存分配?
-
Spark的batchsize,怎么解决小文件合并问题?
-
Spark参数(性能)调优
-
介绍一下Spark怎么基于内存计算的
-
说下什么是RDD(对RDD的理解)?RDD有哪些特点?说下知道的RDD算子
-
RDD底层原理
-
RDD属性
-
RDD的缓存级别?
-
Spark广播变量的实现和原理?
-
reduceByKey和groupByKey的区别和作用?
-
reduceByKey和reduce的区别?
-
使用reduceByKey出现数据倾斜怎么办?
-
Spark SQL的执行原理?
-
Spark SQL的优化?
-
说下Spark checkpoint
-
Spark SQL与DataFrame的使用?
-
Sparksql自定义函数?怎么创建DataFrame?
-
HashPartitioner和RangePartitioner的实现
-
Spark的水塘抽样
-
DAGScheduler、TaskScheduler、SchedulerBackend实现原理
-
介绍下Sparkclient提交application后,接下来的流程?
-
Spark的几种部署方式
-
在Yarn-client情况下,Driver此时在哪
-
Spark的cluster模式有什么好处
-
Driver怎么管理executor
-
Spark的map和flatmap的区别?
-
Spark的cache和persist的区别?它们是transformaiton算子还是action算子?
-
Saprk Streaming从Kafka中读取数据两种方式?
-
Spark Streaming的工作原理?
-
Spark Streaming的DStream和DStreamGraph的区别?
-
Spark输出文件的个数,如何合并小文件?
-
Spark的driver是怎么驱动作业流程的?
-
Spark SQL的劣势?
-
介绍下Spark Streaming和Structed Streaming
-
Spark为什么比Hadoop速度快?
-
DAG划分Spark源码实现?
-
Spark Streaming的双流join的过程,怎么做的?
-
Spark的Block管理
-
Spark怎么保证数据不丢失
-
Spark SQL如何使用UDF?
-
Spark温度二次排序
-
Spark实现wordcount
-
Spark Streaming怎么实现数据持久化保存?
-
Spark SQL读取文件,内存不够使用,如何处理?
-
Spark的lazy体现在哪里?
-
Spark中的并行度等于什么
-
Spark运行时并行度的设署
-
Spark SQL的数据倾斜
-
Spark的exactly-once
-
Spark的RDD和partition的联系
-
park 3.0特性
-
Spark计算的灵活性体现在哪里