行式存储
textFile
SequenceFile
列式存储
优点:1、一列数据一般是同质的,利于压缩数据,节省空间
2、扫描时只读其中部分列,较少io
rcFile
每4m行数据进行切分成一组,再在每个行组内按照列进行存储
orc
每个块是256m,优化磁盘线性读取,通过指定编码器确定数据类型并优化压缩
parquet
大数据生态中通用存储格式,使用范围广,适用于嵌套文件格式
行式存储
textFile
SequenceFile
列式存储
优点:1、一列数据一般是同质的,利于压缩数据,节省空间
2、扫描时只读其中部分列,较少io
rcFile
每4m行数据进行切分成一组,再在每个行组内按照列进行存储
orc
每个块是256m,优化磁盘线性读取,通过指定编码器确定数据类型并优化压缩
parquet
大数据生态中通用存储格式,使用范围广,适用于嵌套文件格式