• 大数据面试题知识点分析(六)


    转自:https://blog.csdn.net/qq_26803795/article/details/79162203

    为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HIVE:


    1)hive 支持 not in 吗?

    不支持,可以用left join 实现此功能。

    2)Hive 有哪些方式保存元数据,各有哪些优缺点?

    1.存储于内存数据库derby,此方法只能开启一个hive客户端,不推荐使用。
    2.存储于mysql数据库,可以多客户端连接,推荐使用。
    分为本地mysql数据库,远程mysql数据库,但是本地的mysql数据用的比较多,因为本地读写速度都比较快。

    3)hive 如何优化?

    1.join优化,尽量将小表放在join的左边,如果一个表很小可以采用mapjoin;
    2.排序优化,order by 一个reduce效率低,distirbute by +sort by 也可以实现全局排序;
    3.使用分区,查询时可减少数据的检索,从而节省时间。
    hive最终都会转化为mapreduce的job来运行,要想hive调优,实际上就是mapreduce调优,可以有下面几个方面的调优:解决收据倾斜问题,减少job数量,设置合理的map和reduce个数,对小文件进行合并,优化时把我整体,单个task最优不如整体最优,按照一定规则分区。

    4)hive 如何权限控制?

    Hive的权限需要在hive-site.xml文件中设置才会起作用,配置默认的是false。需要把hive.security.authorization.enabled设置为true,并对不同的用户设置不同的权限,例如select ,drop等的操作。

    5)hive 能像关系数据库那样,建多个库吗?

    可以建立多个库,多库多表都支持。

    6)hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?

    TextFile:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。

    SequenceFile:Hadoop API提供的一种二进制文件支持,使用方便,可分割,可压缩,支持三种压缩,NONE,RECORD,BLOCK。

    RCFILE:是一种行列存储相结合的方式。首先,将数据按行分块,保证同一个record在同一个块上,避免读一个记录读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。数据加载的时候性能消耗大,但具有较好的压缩比和查询响应。

     








  • 相关阅读:
    家庭问题(family)
    BFS简单题记
    【例2-3】围圈报数
    【例8.3】最少步数
    【例3-5】扩展二叉树
    股票买卖
    小球(drop)
    用循环单链表实现约瑟夫环
    二叉树的3种遍历6种实现
    const与#define宏常量 , inline与#define
  • 原文地址:https://www.cnblogs.com/tongxupeng/p/10259519.html
Copyright © 2020-2023  润新知