hdfs文件格式

Hadoop中的文件格式大致上分为面向行和面向列两类：

面向行：同一行的数据存储在一起，即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式，如果只需要访问行的一小部分数据，亦需要将整行读入内存，推迟序列化一定程度上可以缓解这个问题，但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。

面向列：整个文件被切割为若干列数据，每一列数据一起存储。Parquet , RCFile,ORCFile。面向列的格式使得读取数据时，可以跳过不需要的列，适合于只处于行的一小部分字段的情况。但是这种格式的读写需要更多的内存空间，因为需要缓存行在内存中（为了获取多行中的某一列）。同时不适合流式写入，因为一旦写入失败，当前文件无法恢复，而面向行的数据在写入失败时可以重新同步到最后一个同步点，所以Flume采用的是面向行的存储格式。

1、 SequenceFile
2、Avro
3、RCFile
4、ORCFile

可参看其博主文章：https://www.cnblogs.com/wqbin/p/14635480.html

作者：落花桂

出处：http://grenet.cnblogs.com/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

相关阅读:
家庭记账本安卓版开发：第一天
家庭记账本安卓版开发：第二天
通过Android的API对Sqlite数据库进行操作
通过SQL语句操作Sqlite数据库
Activity组件（四）：通过requestCode和resultCode来实现Activity间的数据回传
Activity组件（三）：通过对象实现信息添加及展示
家庭记账本安卓版开发：第三天
梦断代码（三）
MacType使用配置
去掉win7快捷方式箭头及修复锁定到任务栏失效

原文地址：https://www.cnblogs.com/nthforsth/p/14939544.html