Hive
背景
-
-
对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一推MapReduce代码
-
对于统计任务,只能由懂MapReduce的程序员才能搞定
-
耗时耗力,更多精力没有有效的释放出来
-
-
Hive基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据进行查询、统计和分析
Hive是什么
-
HIve是一个SQL解析引擎,将SQL语句转译成MR Job,然后在Hadoop平台上运行,达到快速开发的目的
-
Hive中的表是纯逻辑表,只是表的定义等,既表的元数据,本质就是Hadoop的目录/文件,达到了元数据和数据存储分离的目的
-
Hive本身不存储数据,它完全依赖HDFS和MapReduce
-
Hive的内容是读多写少,不支持对数据的改写和删除
-
Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:
-
列分割符
-
-
行分隔符
-
空格
-
-
-