• 第二阶段总结


    第二阶段总结
    1.你们使用的spark运行模式,Spark On Yarn 的工作流程,client和cluster的区别(driver再哪里)
    2.Spark用的版本?Spark内存管理,画出来,然后给一个案例,excutor要申请300M内存的过程。
    新版是跑不起来的
    原来是1.6
    3.直接看面试官电脑上的Spark源码,包括BlcokManager/UnifiedMemoryManager,问某一段代码干的事
    4.shuffle管理的几种方式?有什么区别?你们的spark版本使用的是哪一种
    hash sort 4点 官方默认sort

    5.说下reducebykey和groupbykey的区别
    conbiner
    减少shuffle数据
    6.什么是宽依赖和窄依赖
    7.如何保证yarn的高可用,yarn在挂掉后,未执行完的作业怎么处理
    8.数据倾斜场景,资源只够处理100G,高峰来1T数据怎么处理
    打散,加随机数
    8.小文件合并的方案
    colase
    9.kafka集群,挂掉某一个,怎么恢复和保证数据0丢失
    10.怎么设计kafka特征数据
    11.说几个spark开发中遇到的问题,和解决的方案
    小胖包
    shuffle
    数据倾斜
    链接数据库
    12. RDD的五大特性是哪几特性?
    1.分区
    2.依赖
    3.
    4.
    5.
    13. spark作业执行流程?

    14.spark sql与RDD之间如何转换?几种,场景
    两种,一是反射(预先确定的),二是编程(中间)
    15. flume生产中如何设计?
    avro source
    自定义数据源 自定义MySQL source 哪个类干了啥
    16.flume的三个组件?

    17.
    介绍spark中的隐式转换与使用?
    doubleRDDToDoubleRDDFunction core
    spark sql是导一些包进来 否则美金符啥的都不认识
    18.用Spark干过什么
    ETL数据分析
    合并小文件
    19.spark与MR的区别
    20.画图讲解Spark工作流程,以及在集群上和各个角色的对应关系
    21.Spark Streaming程序代码更新后如何操作
    怎样平滑升级 一半一半上
    22.spark-submit如何引入外部jar包 --jars --packages
    23.Spark对于OOM从什么角度下手调整
    2个角度
    driver
    结合同意内存管理
    exector 新版本
    百分比
    24.org.apache.spark.SparkExectption:Task not serializable,这个错误是什么意思?如何解决?哪些场景会出现这错误?
    传输的东西序列化不了。driver传不到exector里边去
    链接数据库(connection传不过去)
    25.ThriftServer的HA如何去实现,能说下实现的思路嘛
    用zk去实现(2)搭两个负载进程
    26.说下Zookeeper的watch机制是如何实现的嘛?
    27.知道除了Spark之外的大数据处理框架嘛
    flink
    28.Hadoop2.0做了哪些改动
    29.Spark shuffle,说说
    30.Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
    分情况

    31.你觉得join该怎么优化
    大表分桶 小表广播

    32.你能二次源码修改支持parquent格式吗?
    API

    32.rdd dataset dataframe 概念
    33.mapflat
    34.spark资源分配
    35.kafka怎么保证数据零丢失?和spark streaming结合说说看?
    offset的管理 1.手工2.官方
    36.Spark将数据写MySQL要注意什么
    37.Spark repartition和coalesce函数的区别
    38.谈谈你对Spark的理解
    工作离线处理 ,dataframe dataset rdd区别 spark提交

    39.在工作中使用Spark遇到了哪些问题,如何解决的,请举3个例子
    偏移量 数据重复 了解数据库
    40.为什么要用sparkcore
    1.快 disk 10*
    memonery 100*
    2.easy
    code 简单
    interactive shell 测试方便
    3.Unified Stack
    Batch
    Streaming
    ML
    Graph
    4.Deployment
    Local
    Standalone
    YARN
    K8S
    5.多语言

  • 相关阅读:
    django高级应用
    python第六章模块
    python第五章函数
    python第四章文件操作
    python第三章数据类型
    python第二章python入门
    python第一章计算机基础
    Python全栈day 05
    Python全栈day 04
    mysql 消息表分区方案
  • 原文地址:https://www.cnblogs.com/xuziyu/p/10993788.html
Copyright © 2020-2023  润新知