• 第一阶段总结


    1.画出你们的大数据架构,然后针对架构提问,如何做到精准一次、小文件规避等
    2.为什么会产生小文件
    3.为什么Hadoop不怕数据量大,却怕文件小
    4.你能告诉我路径占不占元数据内存,如果占,占多少
    5.小文件会产生什么样的问题,产生的问题会对你们的集群产生什么样的影响
    6.画出Yarn工程流程
    7.mr和spark,flink,storm在yarn上的执行流程
    8.Yarn调度有哪几种?你们用的是那种?
    然后给一个案例如果申请的资源,在yarn队列里资源不够,怎么处理
    9.如何用自己的spark版本去替换cm的spark版本
    cm里边自带的spark是standlone模式
    10.你们HDFS高可用采用的那种?NN落盘的两个文件叫什么?主备NN实现高可用的流程?
    11.HDFS NN内存管理
    12.现场看生产上一个案例:HDFS Block有丢失,怎么办?
    13.查看HDFS上一个目录下文件数和空间大小的命令
    14.scala中Left和Right的区别
    15.Java多线程用到的锁有哪些?

    16.说几个对hadoop的认识
    1.广义和狭义
    2.hdfs的架构,他们每个东西的职责
    3.HA里边的职责
    4.yarn职责,yarn的HA分别是怎么是实现的
    5.小文件及小文件产生的原因还有怎么处理
    17.hadoop1.x到2.x有什么区别
    1里都是单点故障
    18.我们hadoop生产用什么文件格式和压缩?为什么
    19.如何保证yarn的高可用,yarn在挂掉后,未执行完的作业怎么处理
    20.小文件合并的方案
    归档
    21.简单说下hdfs读文件和写文件的流程
    22.每天数据量有多大?生产集群规模有多大?
    2 3条数据线,一天200G到300G
    多少数据量对应多少台机器挂载磁盘
    23.阐述一下最近开发的项目,以及担任的角色位置
    24.我们项目中数据倾斜的场景和解决方案
    25.hive执行哪些操作时会触发MR,哪些操作不能触发MR?
    参数可以控制 batch
    26.hive触发MR转换过程?
    27.生产中数据量?
    时间 业务线
    28.查询一个文件有多少行。
    29.jvm 运行时数据区域
    30.mr 计算流程
    31.git的使用
    32.hive内部表和外部表的区别
    33.hive存储格式和压缩格式
    34.hive于关系型数据库的区别
    半毛钱的关系没有只是语法长的有点像而已
    35.各种排序 手写堆排序,说说原理
    36.阐述HDFS生成文件的过程(写过程)
    37.Hadoop有哪些优化,调优点
    MR调优:map端缓冲区能放大,能减少磁盘落地交互次数,reduce也有缓冲区,小文件
    38.阐述对Hive分区的理解
    分区是目录
    39.Hive分桶
    分桶是文件
    40.公司的生产集群规模
    10字节*天数*副本数=xxx
    xxx*N个业务线=。。。
    N台
    41.hive和hdfs之间的联系
    42.inode和文件描述符
    43.linux指令如何创建文件
    44.hive实现原理
    45.谈谈你对HDFS的了解(架构)
    46.Hadoop2.0做了哪些改动
    47.StringBuilder与StringBuffer的区别
    48.HashMap与Hashtable的区别
    49.你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛
    50.还是hive,你对hive有哪些原理性了解呢
    51.知道AST、operator tree这些长什么样吗
    52.那你的hive转mr过程是怎么了解的呢?
    53.除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优
    54.你觉得join该怎么优化 (大表对大表 优化加桶)FMB JOIN
    55.hadoop集群、namenode如何做到数据同步?
    56.hdfs副本存放策略
    57.HA如何在挂掉一台namenode节点的状态下,自动切换到另一台?
    58.mapreduce shuffle过程
    59.mapreduce优化
    60.hive能加索引吗?
    61.如何查找在Linux目录下的某个文本里的包含相关内容的操作?
    grep
    62.小文件的合并
    归档
    后期spark
    63.关注哪些名人的博客
    过往记忆 五个
    64.对大数据领域有什么自己的见解
    65.你对未来的规划是什么?(五年内)
    66.你也就是走技术路线咯
    67.谈谈你对树的理解
    68.jvm的内存模型
    69.1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来
    70.Java字符串拼接StringBuffer和+=区别
    71.Scala map和foreach区别

    72.join和group by数据倾斜的解决方案

    使用Hive/MR/Spark进行离线处理时的注意事项
    1)input
    格式问题
    2)temp
    速度快
    3)
    格式问题

    ETL 大宽表
    ==>TEMP12 合理利用中间结果集
    ==>SQL1
    ==>SQL2
    ...
    SQLN
    语法层面
    set xxx=yyy
    reduce个数设置==>输出文件个数
    ==>少:慢
    权衡

    https://www.cnblogs.com/Dhouse/p/7132476.html   hivesql转为mr

  • 相关阅读:
    int和Integer有什么区别
    互联网思维的四个核心观点九大思维解读
    未来流行的12种商业模式
    小黑裙三级分销模式
    数据库设计三大范式
    数据库设计中常见表结构的设计技巧
    软件架构的演进,了解单体架构,垂直架构,SOA架构和微服务架构的变化历程
    查理芒格的25种人类误判心理学
    聪明的老板,都懂得让人占便宜(经典)
    真正聪明的人,从不占人便宜
  • 原文地址:https://www.cnblogs.com/xuziyu/p/10993786.html
Copyright © 2020-2023  润新知