第二阶段总结
1.你们使用的spark运行模式,Spark On Yarn 的工作流程,client和cluster的区别(driver再哪里)
2.Spark用的版本?Spark内存管理,画出来,然后给一个案例,excutor要申请300M内存的过程。
新版是跑不起来的
原来是1.6
3.直接看面试官电脑上的Spark源码,包括BlcokManager/UnifiedMemoryManager,问某一段代码干的事
4.shuffle管理的几种方式?有什么区别?你们的spark版本使用的是哪一种
hash sort 4点 官方默认sort
5.说下reducebykey和groupbykey的区别
conbiner
减少shuffle数据
6.什么是宽依赖和窄依赖
7.如何保证yarn的高可用,yarn在挂掉后,未执行完的作业怎么处理
8.数据倾斜场景,资源只够处理100G,高峰来1T数据怎么处理
打散,加随机数
8.小文件合并的方案
colase
9.kafka集群,挂掉某一个,怎么恢复和保证数据0丢失
10.怎么设计kafka特征数据
11.说几个spark开发中遇到的问题,和解决的方案
小胖包
shuffle
数据倾斜
链接数据库
12. RDD的五大特性是哪几特性?
1.分区
2.依赖
3.
4.
5.
13. spark作业执行流程?
14.spark sql与RDD之间如何转换?几种,场景
两种,一是反射(预先确定的),二是编程(中间)
15. flume生产中如何设计?
avro source
自定义数据源 自定义MySQL source 哪个类干了啥
16.flume的三个组件?
17.
介绍spark中的隐式转换与使用?
doubleRDDToDoubleRDDFunction core
spark sql是导一些包进来 否则美金符啥的都不认识
18.用Spark干过什么
ETL数据分析
合并小文件
19.spark与MR的区别
20.画图讲解Spark工作流程,以及在集群上和各个角色的对应关系
21.Spark Streaming程序代码更新后如何操作
怎样平滑升级 一半一半上
22.spark-submit如何引入外部jar包 --jars --packages
23.Spark对于OOM从什么角度下手调整
2个角度
driver
结合同意内存管理
exector 新版本
百分比
24.org.apache.spark.SparkExectption:Task not serializable,这个错误是什么意思?如何解决?哪些场景会出现这错误?
传输的东西序列化不了。driver传不到exector里边去
链接数据库(connection传不过去)
25.ThriftServer的HA如何去实现,能说下实现的思路嘛
用zk去实现(2)搭两个负载进程
26.说下Zookeeper的watch机制是如何实现的嘛?
27.知道除了Spark之外的大数据处理框架嘛
flink
28.Hadoop2.0做了哪些改动
29.Spark shuffle,说说
30.Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
分情况
31.你觉得join该怎么优化
大表分桶 小表广播
32.你能二次源码修改支持parquent格式吗?
API
32.rdd dataset dataframe 概念
33.mapflat
34.spark资源分配
35.kafka怎么保证数据零丢失?和spark streaming结合说说看?
offset的管理 1.手工2.官方
36.Spark将数据写MySQL要注意什么
37.Spark repartition和coalesce函数的区别
38.谈谈你对Spark的理解
工作离线处理 ,dataframe dataset rdd区别 spark提交
39.在工作中使用Spark遇到了哪些问题,如何解决的,请举3个例子
偏移量 数据重复 了解数据库
40.为什么要用sparkcore
1.快 disk 10*
memonery 100*
2.easy
code 简单
interactive shell 测试方便
3.Unified Stack
Batch
Streaming
ML
Graph
4.Deployment
Local
Standalone
YARN
K8S
5.多语言