对TextFile格式文件的lzo压缩建立index索引

对TextFile格式文件的lzo压缩建立index索引

转自：http://blog.csdn.net/yangbutao/article/details/8519572

hadoop中可以对文件进行压缩，可以采用gzip、lzo、snappy等压缩算法。

对于lzo压缩，常用的有LzoCodec和lzopCodec，可以对sequenceFile和TextFile进行压缩，但是有一点，对TextFile压缩后，mapred对压缩后的文件默认是不能够进行split操作，需要对该lzo压缩文件进行index操作，生成lzo.index文件，map操作才可以进行split。

/hadoop jar hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer xxx.lzo

索引完成后，在lzo压缩文件的相同目录下，生成.lzo.index文件

需要说明的是，

1、不支持对sequenceFile 生成.lzo格式的压缩文件，虽然支持对sequenceFile压缩

只支持对Store as textFile的生成.lzo后缀的文件

2、如果设置LzoCodec，那么就生成.lzo后缀的文件，可以用LzoIndexer 进行支持split的index计算，如果设置LzopCodec，那么生成.lzo_deflate后缀的文件，不支持建立index。
相关阅读:
P1227 【[JSOI2008]完美的对称】
Hive使用Calcite CBO优化流程及SQL优化实战
 深入浅出Calcite与SQL CBO（Cost-Based Optimizer）优化
 神奇的传送门
 怎么设计一个秒杀系统
 我的收藏
 Redis 客户端 Jedis、lettuce 和 Redisson 对比
 Redis 的完整安装过程
 Redis GEO 功能使用场景
 Redis 传送门
原文地址：https://www.cnblogs.com/cxzdy/p/5600667.html