【转】[hadoop源代码解读] 【SequenceFile】

【转】[hadoop源代码解读] 【SequenceFile】

SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中。这种文件格式有以下好处：
1)支持压缩，且可定制为基于Record或Block压缩（Block级压缩性能较优）
2)本地化任务支持：因为文件可以被切分，因此MapReduce任务时数据的本地化情况应该是非常好的。
3)难度低：因为是Hadoop框架提供的API，业务逻辑侧的修改比较简单。
坏处是需要一个合并文件的过程，且合并后的文件将不方便查看。

SequenceFile 是一个由二进制序列化过的key/value的字节流组成的文本存储文件，它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中，map处理文件的临时输出就是使用SequenceFile处理过的。
SequenceFile分别提供了读、写、排序的操作类。
SequenceFile的操作中有三种处理方式：
1）不压缩数据直接存储。 //enum.NONE
2）压缩value值不压缩key值存储的存储方式。//enum.RECORD
3）key/value值都压缩的方式存储。//enum.BLOCK

SequenceFile提供了若干Writer的构造静态获取。
//SequenceFile.createWriter()；
SequenceFile.Reader使用了桥接模式，可以读取SequenceFile.Writer中的任何方式的压缩数据。

筆者研究「Uncompressed SequenceFile Format」檔案，一個個對照Hadoop的原始碼來驗證~ 心得整理如下：
從「Class SequenceFile」所描述的~ 基本上「SequenceFiles」有三種不同的檔案格式~ 它們分別為「Uncompressed SequenceFile Format」、「Record-Compressed SequenceFile Format」和「Block-Compressed SequenceFile Format」，後兩種都是採用壓縮的檔案格式~ 而文本主要介紹剖析「Uncompressed SequenceFile Format」~ 了解這一個檔案格式之後~ 另外兩個自然能得心應手~ 而官方針對這個檔案格式的描述如下：

每一種檔案格式都包含了共同的「SequenceFile Header」用來記錄一些基本資訊~ 如：keyClassName、valueClassName等...
本文以下圖的範例來介紹：

笔者已经用「红->蓝->绿」颜色的顺序来标记~ 以方便对照~
0x53 0x45 0x51
这是SequenceFile Format的magic header「SEQ」，和一般的檔案格式一樣~ 都是用來判別這個檔案是否屬於「SequenceFile Format」。
0x06
版本编号，目前最新版为「SEQ6」。
0x19 0x6F 0x72 ..... 0x74
这部分属于keyClassName(Key的类别名称)，而第1个Byte(0x19)用來表示此字串的长度，此范例为「org.apache.hadoop.io.Text」。
0x22 0x6F 0x72 ..... 0x65
这部份属于valueClassName(Value的类别名称)，第1個Byte(0x22)也是用來表示此字串的長度，此範例為「org.apache.hadoop.io.BytesWritable」。
0x00
是否支援compression？「0x00」=否 (此為Boolean所以佔1個Byte)
0x00
是否支援blockCompression？「0x00」=否(此為Boolean所以佔1個Byte)
0x00 0x00 0x00 0x00
metadata資訊，此範例沒有包含任何「SequenceFile.Metadata」的資訊~ 所以輸出「0x00 0x00 0x00 0x00」(此為Int所以佔4個Bytes)，而這四個Bytes也等同於metadata的長度，也就是至少一定會佔用這4個Bytes。
0x77 0xE5 0xEF ..... 0xA7
一個sync標記，用來表示一個「Header」的結束，此標記是亂數產生的~ 從原始碼中可得知此標記是由「new UID()+"@"+time」的方式再進行「MD5」編碼。
0x00 0x35 0x62 0x8B
整筆Record的size~ (此為Int佔4個Bytes)，一筆Record包含「Key、Value」的內容資訊。
0x00 0x00 0x00 0x2C
Key內容的size~ (此為Int佔4個Bytes)。
0x2B 0x68 0x64 ..... 0x47
由於筆者用「org.apache.hadoop.io.Text」當Key，所以這裡的資訊是描述一個檔案的路徑名稱，第1個Byte(0x2B)用來表示此字串的長度，內容為「hdfs://nlp:9000/user/hdp/image/P1010099.JPG」。
0x00 0x35 0x62 0x5B
Value內容的size~ (此為Int佔4個Bytes)。
0xFF 0xD8 0xFF .....
筆者以JPEG檔案格式做為介紹~ 所以這裡是「0xFF、0xD8」開頭。
相关阅读:
Cygwin 与 MinGW/MSYS/MSYS2，如何选择？甚至还有GNU utilities for Win32
MinGW和MSYS项目是在一起的（翻译官网）
库存限购
 ElasticSearch指南
 Windows系统的Jenkins持续集成环境
 JavaScript 框架
 Istio Service Mash管理微服务
 LinkedIn微服务框架rest.li
Istio微服务架构初试
 github
原文地址：https://www.cnblogs.com/conie/p/3583606.html