常用:ORC & Parquet
性能对比:
hbase底层用sequenceFile
一、从text格式 到 orc =>
- 利用中间表方法(从textfile到orc):https://blog.csdn.net/happyrocking/article/details/90178439
-
CREATE TABLE A_ORC ( customerID int, name string, age int, address string ) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”); INSERT INTO TABLE A_ORC SELECT * FROM A;
-
- 先导入,后转表存储类型:http://www.sundeqiang.cn/archives/1092.html
二、从其他格式 =>
- LOAD DATA可用于导入CSV、Parquet、ORC、JSON、Avro格式的数据
- 导入PARQUET、ORC及JSON类型数据时,必须指定DATA_TYPE这一OPTIONS,否则会以默认的“CSV”格式进行解析,从而导致导入的数据格式不正确。
- 例子详见:https://support.huaweicloud.com/sqlreference-dli/dli_08_0100.html