• 【转】[hadoop源代码解读] 【SequenceFile】


    SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式 有以下好处
    1)支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优)
    2)本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的。
    3)难度低:因为是Hadoop框架提供的API,业务逻辑侧的修改比较简单。
    坏处是需要一个合并文件的过程,且合并后的文件将不方便查看。

    SequenceFile 是一个由二进制序列化过的key/value的字节流组成的文本存储文件,它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中,map处理文件的临时输出就是使用SequenceFile处理过的。
    SequenceFile分别提供了读、写、排序的操作类。
    SequenceFile的操作中有三种处理方式:
    1) 不压缩数据直接存储。 //enum.NONE
    2) 压缩value值不压缩key值存储的存储方式。//enum.RECORD
    3)key/value值都压缩的方式存储。//enum.BLOCK


    SequenceFile提供了若干Writer的构造静态获取。
    //SequenceFile.createWriter();
    SequenceFile.Reader使用了桥接模式,可以读取SequenceFile.Writer中的任何方式的压缩数据。


    筆者研究「Uncompressed SequenceFile Format」檔案,一個個對照Hadoop的原始碼來驗證~ 心得整理如下:
    從「Class SequenceFile」 所描述的~ 基本上「SequenceFiles」有三種不同的檔案格式~ 它們分別為「Uncompressed SequenceFile Format」、「Record-Compressed SequenceFile Format」和「Block-Compressed SequenceFile Format」,後兩種都是採用壓縮的檔案格式~ 而文本主要介紹剖析「Uncompressed SequenceFile Format」~ 了解這一個檔案格式之後~ 另外兩個自然能得心應手~ 而官方針對這個檔案格式的描述如下:

    seq.gif

    每一種檔案格式都包含了共同的「SequenceFile Header」用來記錄一些基本資訊~ 如:keyClassName、valueClassName等...
    本文以下圖的範例來介紹:

    source.gif

    笔者已经用「红->蓝->绿」颜色的顺序来标记~ 以方便对照~
    0x53 0x45 0x51
    这是SequenceFile Format的magic header「SEQ」,和一般的檔案格式一樣~ 都是用來判別這個檔案是否屬於「SequenceFile Format」。
    0x06
    版本编号,目前最新版为「SEQ6」。
    0x19 0x6F 0x72 ..... 0x74
    这部分属于keyClassName(Key的类别名称),而第1个Byte(0x19)用來表示此字串的长度,此范例为「org.apache.hadoop.io.Text」。
    0x22 0x6F 0x72 ..... 0x65
    这部份属于valueClassName(Value的类别名称),第1個Byte(0x22)也是用來表示此字串的長度,此範例為「org.apache.hadoop.io.BytesWritable」。
    0x00
    是否支援compression?「0x00」=否 (此為Boolean所以佔1個Byte)
    0x00
    是否支援blockCompression?「0x00」=否(此為Boolean所以佔1個Byte)
    0x00 0x00 0x00 0x00
    metadata資訊,此範例沒有包含任何「SequenceFile.Metadata」的資訊~ 所以輸出「0x00 0x00 0x00 0x00」(此為Int所以佔4個Bytes),而這四個Bytes也等同於metadata的長度,也就是至少一定會佔用這4個Bytes。
    0x77 0xE5 0xEF ..... 0xA7
    一個sync標記,用來表示一個「Header」的結束,此標記是亂數產生的~ 從原始碼中可得知此標記是由「new UID()+"@"+time」的方式再進行「MD5」編碼。
    0x00 0x35 0x62 0x8B
    整筆Record的size~ (此為Int佔4個Bytes),一筆Record包含「Key、Value」的內容資訊。
    0x00 0x00 0x00 0x2C
    Key內容的size~ (此為Int佔4個Bytes)。
    0x2B 0x68 0x64 ..... 0x47
    由 於筆者用「org.apache.hadoop.io.Text」當Key,所以這裡的資訊是描述一個檔案的路徑名稱,第1個Byte(0x2B)用來表 示此字串的長度,內容為「hdfs://nlp:9000/user/hdp/image/P1010099.JPG」。
    0x00 0x35 0x62 0x5B
    Value內容的size~ (此為Int佔4個Bytes)。
    0xFF 0xD8 0xFF .....
    筆者以JPEG檔案格式做為介紹~ 所以這裡是「0xFF、0xD8」開頭。

  • 相关阅读:
    Cygwin 与 MinGW/MSYS/MSYS2,如何选择?甚至还有GNU utilities for Win32
    MinGW和MSYS项目是在一起的(翻译官网)
    库存限购
    ElasticSearch指南
    Windows系统的Jenkins持续集成环境
    JavaScript 框架
    Istio Service Mash管理微服务
    LinkedIn微服务框架rest.li
    Istio微服务架构初试
    github
  • 原文地址:https://www.cnblogs.com/conie/p/3583606.html
Copyright © 2020-2023  润新知