1. 什么是hive
•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
•本质是将HQL转换为MapReduce程序
2. 为什么使用hive
•操作接口采用类SQL语法,提供快速开发的能力
•避免了去写MapReduce,减少开发人员的学习成本
•扩展功能很方便
3. hive 特点
•可扩展
Hive可以自由的扩展集群的规模,一般情况下不需要重启服务
•延展性
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数
•容错
良好的容错性,节点出现问题SQL仍可完成执行
4. hive 与hadoop 关系
发出HQL —> hive 转换成mapreduce —> mapreduce —> 对hdfs进行操作
5. hive 与传统数据对比
|
Hive
|
RDBMS
|
查询语言
|
HQL
|
SQL
|
数据存储
|
HDFS
|
Raw Device or Local FS
|
执行
|
MapReduce
|
Excutor
|
执行延迟
|
高
|
低
|
处理数据规模
|
大
|
小
|
索引
|
0.8版本后加入位图索引
|
有复杂的索引
|
6. hive 的未来
•增加更多类似传统数据库的功能,如存储过程
•提高转换成的MapReduce性能
•拥有真正的数据仓库的能力
•UI部分加强