Hive面试题(约3.3w字)
-
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?
-
说下Hive是什么?跟数据仓库区别?
-
Hive架构
-
Hive内部表和外部表的区别?
-
为什么内部表的删除,就会将数据全部删除,而外部表只删除表结构?为什么用外部表更好?
-
Hive建表语句?创建表时使用什么分隔符?
-
Hive删除语句外部表删除的是什么?
-
Hive数据倾斜以及解决方案
-
Hive如果不用参数调优,在map和reduce端应该做什么
-
Hive的用户自定义函数实现步骤与流程
-
Hive的三种自定义函数是什么?实现步骤与流程?它们之间的区别?作用是什么?
-
Hive的cluster by、sort bydistribute by、orderby区别?
-
Hive分区和分桶的区别
-
Hive的执行流程
-
Hive SQL转化为MR的过程?
-
Hive SQL优化处理
-
Hive的存储引擎和计算引擎
-
Hive的文件存储格式都有哪些
-
Hive中如何调整Mapper和Reducer的数目
-
介绍下知道的Hive窗口函数,举一些例子
-
Hive的count的用法
-
Hive的union和unionall的区别
-
Hive的join操作原理,leftjoin、right join、inner join、outer join的异同?
-
Hive如何优化join操作
-
Hive的mapjoin
-
Hive语句的运行机制,例如包含where、having、group by、orderby,整个的执行过程?
-
Hive使用的时候会将数据同步到HDFS,小文件问题怎么解决的?
-
Hive Shuffle的具体过程
-
Hive有哪些保存元数据的方式,都有什么特点?
-
Hive SOL实现查询用户连续登陆,讲讲思路
-
Hive的开窗函数有哪些
-
Hive存储数据吗
-
Hive的SOL转换为MapReduce的过程?
-
Hive的函数:UDF、UDAF、UDTF的区别?
-
UDF是怎么在Hive里执行的
-
Hive优化
-
row_number,rank,dense_rank的区别
-
Hive count(distinct)有几个reduce,海量数据会有什么问题
-
HQL:行转列、列转行
-
一条HQL从代码到执行的过程
-
了解Hive SQL吗?讲讲分析函数?
-
分析函数中加Order By和不加Order By的区别?
-
Hive优化方法
-
Hive里metastore是干嘛的
-
HiveServer2是什么?
-
Hive表字段换类型怎么办
-
parquet文件优势