• 大数据面试题


    Linux部分

    ①列举你使用的常用指令?
    ②怎么查看服务是否开启?后面的参数都是什么意思?
    ③怎么查看服务器内存使用情况?
    ④日志查看指令?
    ⑤跨机房怎么传输文件?

    Hadoop部分

    ①怎么搭建一个Hadoop集群?
    ②Hadoop的Shuffer机制?
    ③切片概念?文件256M时,几个切片?
    ④Mr任务提交到yarn流程?
    ⑤数据倾斜概念?

    Hive部分

    ①hive本质?
    ②group by、sort by、oreder by、distribute by、cluster by、partition by区别?
    ③开窗函数理解?
    ④UDF实现过程?
    ⑤有出现过HQL执行出现OOM的现象吗?
    ⑥hive导入数据和到处数据的方式?

    HBase部分

    ①集群角色以及作用?
    ②client写过程和读过程?
    ③布隆过滤器?
    ④Hbase存储特点、与mysql相比?
    ⑤rowkey的设计?
    ⑥cell组成?
    ⑦compact触发时间?作用?

    Kafka部分

    ①为什么要使用Kafka?好处?
    ②集群角色?
    ③kafka中数据写入过程?Follwer与leader如何实现数据同步?
    ④kafka消费者组概念?

    Flume部分

    ①Flume组件成员以及含义?
    ②Flume传输数据方式?
    ③Flume传输数据会丢失吗?怎样避免丢失

    Flink部分

    ①Flink最小计算单元?
    ②Flink任务提交至yarn流程?
    ③Flink时间语义几种、含义?
    ④Flink窗口类型?
    ⑤Flink状态后端类型?一般使用哪种类型?
    ⑥watermark水位线机制?如何设置数据延迟?
    ⑦checkpoint和savepoint区别?有什么好处?
    ⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义?
    ⑨Flink提供了几层api?分别都适用哪些场景?

    Spark部分

    ①角色组成与作用?
    ②spark提交任务至yarn流程?
    ③RDD含义及其特性?
    ④宽依赖与窄依赖?

  • 相关阅读:
    Sass中连体符(&)的运用
    3211:花神游历各国
    ACM-ICPC 2017 Asia Urumqi(第八场)
    ACM训练联盟周赛(第三场)
    ACM训练联盟周赛(第一场)
    Nordic Collegiate Programming Contest 2015​(第七场)
    计算几何知识点简记
    The 2018 ACM-ICPC China JiangSu Provincial Programming Contest(第六场)
    2018 Multi-University Training Contest 1
    German Collegiate Programming Contest 2018​
  • 原文地址:https://www.cnblogs.com/sunbr/p/13266169.html
Copyright © 2020-2023  润新知