• Hive学习01-快速了解hive以及常见的面试问题


    cloudera公司发行的CDH中 
    hive的有三种角色:gateway、hiveserver2、hive metastore三种角色
    其中hive metastore主要用于客户端连接 默认端口
    hive server2 主要用于jdbc连接(很多bi产品都靠jdbc连接,比如hue,帆软等软件)
    gateway 是client的一个代理,主要用于更新hive的客户端配置

    apache社区的hive中也分为客户端,hiveserver2和hive metastore
    启动 metastore : hive --service metastore

    启动hive :hive --service hiveserver2
     

    理论:

    什么是hive:

    1. Hive旨在实现轻松的数据汇总,即时查询和分析大量数据。

    2. 它提供了SQL,使用户可以轻松地进行临时查询,汇总和数据分析。

    3. Hive可以使用用户定义函数(UDF)。

    4. 使用率:实际开发中,80%操作使用Hive完成,20%使用MapReduce。

    5. 与MapReduce相比,Hive特点:稳定、代码精简、易于维护。

    6. HiveQL:未严格实现SQL-92标准。

    7. 本质:将HiveQL转化为一个或多个MapReduce作业并在集群上运行,但并不是所有HiveQL都会转为MapReduce作业。

    常见问题:

    1、hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除
       hive外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构

    2、分区作用:防止数据倾斜

    3、sort by和order by之间的区别?distribute by?cluster by? group by?

    sort by 是单个reduce内部的排序;
    
    order by 是全局排序,只触发一个reduce
    
    distribute by :按照指定的字段对数据进行划分输出到不同的reduce中,通常与sort by 连用
    
    cluster by :除了具有distribute by 的功能外还兼具sort by 的功能
    
    group  by 通常用于做聚合函数操作 count(*) sum(xx)

    4.Hive中追加导入数据的4种方式是什么

    #hdfs
    load data inpath 'hdfs://xxx/xxx' into (overwrite) table a #本地
    load data local inpath
    '/xxx/xx' into (overwrite) table a
    #查询导入
    create table student as select * from student1;
    #查询结果导入
    insert (overwrite) into table student select user_id,user_name from student2;

    5.hive导出数据

    #导出到hdfs 会递归创建文件夹 (注意文件夹如果存在,数据会被清空)高危操作
    insert overwrite directory '/liuzhimin/test2/a' row format delimited fields terminated by '	' select * from u_data_new;
    #导出到本地(高危操作)
    insert overwrite local directory '/home/dip/a' row format delimited fields terminated by '	' select * from u_data_new;
    #bash
    hive -e "use cslc; select * from u_data_new ;"> a.txt
    

    6.数据倾斜怎么办?

    倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。key分布不均匀、业务数据本身的特性、SQL语句造成数据倾斜;
    解决办法:①参数调节:
    set hive.map.aggr=true
    set hive.groupby.skewindata=true
    有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,
    并输出结果,这样处理的结果是相同Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;
    第二个MR Job在根据预处理的数据结果按照 Group By Key 分布到Reduce中(这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中),最后完成最终的聚合操作。 ②SQL语句调节: 大小表join,小表进内存; 大表Join大表:把空值的Key变成一个字符串加上一个随机数,把倾斜的数据分到不同的reduce上,由于null值关联不上,处理后并不影响最终的结果 count distinct大量相同特殊值:count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在做后结果中加1。
    如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行union.

    bin  [bɪn]  详细X
    基本翻译
    n. 垃圾箱;箱子,容器;瓶酒搁架;统计堆栈;(非正式)精神病院
    v. 把……扔进垃圾桶;把……放入容器中;拒绝;把(酒等)放进搁架;把(数据)归入统计堆
    n. (Bin) (美、意)本(人名)
    网络释义
    Hyun Bin: 玄彬
    Bin Packing: 装箱问题
    garbage bin: 垃圾箱

  • 相关阅读:
    Manager Test and DAO
    07-图
    06-排序
    05-查找
    第04次作业-树
    第03次作业-栈和队列
    week-02 线性表
    week01—绪论
    使用promise封装el-form多个表单校验
    $slot受slot-scope影响,导致$slot中的key消失
  • 原文地址:https://www.cnblogs.com/students/p/9594484.html
Copyright © 2020-2023  润新知