1.1 hive的分区表的概念
在文件系统上建立文件夹,把表的数据放在不同文件夹下面,加快查询速度。
1.2 hive分区表的构建
-
创建一个分区字段的分区表
hive> create table student_partition1( id int, name string, age int) partitioned by (dt string) row format delimited fields terminated by ' ';
-
创建二级分区表
hive> create table student_partition2( id int, name string, age int) partitioned by (month string, day string) row format delimited fields terminated by ' ';
2、Hive修改表结构
2.1 修改表的名称
hive> alter table student_partition1 rename to student_partition3;
2.2 表的结构信息
hive> desc student_partition3; hive> desc formatted student_partition3;
2.3 增加/修改/替换列信息
-
增加列
hive> alter table student_partition3 add columns(address string);
-
修改列
hive> alter table student_partition3 change column address address_id int;
-
替换列
hive> alter table student_partition3 replace columns(deptno string, dname string, loc string); #表示替换表中所有的字段
2.4 增加/删除/查看分区
-
添加分区
//添加单个分区 hive> alter table student_partition1 add partition(dt='20170601') ; //添加多个分区 hive> alter table student_partition1 add partition(dt='20190818') partition(dt='20190819');
-
删除分区
hive> alter table student_partition1 drop partition (dt='20170601'); hive> alter table student_partition1 drop partition (dt='20170602'),partition (dt='20170603');
-
查看分区
hive> show partitions student_partition1;
3. Hive数据导入
3.1 向表中加载数据(load)
-
语法
hive> load data [local] inpath 'dataPath' overwrite | into table student [partition (partcol1=val1,…)];
load data: 表示加载数据
==local==: 表示从本地加载数据到hive表;否则从HDFS加载数据到hive表
inpath: 表示加载数据的路径
overwrite: 表示覆盖表中已有数据,否则表示追加
into table: 表示加载到哪张表
student: 表示具体的表
partition: 表示上传到指定分区
说明:load data ...本质,就是将dataPath文件上传到hdfs的 ‘/user/hive/warehouse/tablename’ 下。
实质:hdfs dfs -put /opt/student1.txt /user/hive/warehouse/student1
例如: --普通表: load data local inpath '/opt/bigdata/data/person.txt' into table person --分区表: load data local inpath '/opt/bigdata/data/person.txt' into table student_partition1 partition(dt="20190505") --查询表: select * from student_partition1 where dt='20190818'; --实操案例: 实现创建一张表,然后把本地的数据文件上传到hdfs上,最后把数据文件加载到hive表中
3.2 通过查询语句向表中插入数据(insert)
-
从指定的表中查询数据结果数据然后插入到目标表中
-
语法
-
insert into/overwrite table tableName select xxxx from tableName insert into table student_partition1 partition(dt="2019-07-08") select * from student1;
3.3 查询语句中创建表并加载数据(as select)
-
在查询语句时先创建表,然后进行数据加载
-
语法
-
create table if not exists tableName as select id, name from tableName;
3.4 创建表时通过location指定加载数据路径
-
创建表,并指定在hdfs上的位置
create table if not exists student1( id int, name string) row format delimited fields terminated by ' ' location '/user/hive/warehouse/student1';
-
上传数据文件到hdfs上对应的目录中
hdfs dfs -put /opt/student1.txt /user/hive/warehouse/student1
3.5 Import数据到指定Hive表中
注意:先用export导出后,再将数据导入。
create table student2 like student1; export table student1 to '/export/student1'; import table student2 from '/export/student1';
4、Hive数据导出(15分钟)
4.1 insert 导出
-
1、将查询的结果导出到本地
insert overwrite local directory '/opt/bigdata/export/student' select * from student; 默认分隔符'