• LevelDB源码之四LOG文件


    “LOG文件在LevelDb中的主要作用是系统故障恢复时,能够保证不会丢失数据。因为在将记录写入内存的Memtable之前,会先写入Log文件,这样即使系统发生故障,Memtable中的数据没有来得及Dump到磁盘的SSTable文件,LevelDB也可以根据log文件恢复内存的Memtable数据结构内容,不会造成系统丢失数据,在这点上LevelDb和Bigtable是一致的。” (http://www.cnblogs.com/haippy/archive/2011/12/04/2276064.html)

    准备工作:

    Log文件只涉及顺序读、顺序写两种操作,而在LevelDB中的其他文件(如SSTable)还会设计随机读操作,作者针对每种操作类型做了封装:

     1     class SequentialFile {
     2     public:
     3         virtual Status Read(size_t n, Slice* result, char* scratch) = 0;
     4         virtual Status Skip(uint64_t n) = 0;
     5     };
     6     class RandomAccessFile {
     7     public:
     8         virtual Status Read(uint64_t offset, size_t n, Slice* result,
     9             char* scratch) const = 0;
    10     };
    11     class WritableFile {
    12     public:
    13         virtual Status Append(const Slice& data) = 0;
    14         virtual Status Close() = 0;
    15         virtual Status Flush() = 0;
    16         virtual Status Sync() = 0;
    17     };

    操作系统相关操作在不同系统下,实现各不相同,作者也做了统一的接口封装(跨平台),称之为“环境类”Env:

     1     class Env {
     2     public:
     3         Env() { }
     4         virtual ~Env();
     5 
     6         // Return a default environment suitable for the current operating
     7         // system.  
     8         static Env* Default();
     9 
    10     //基于不同的操作系统实现了各种文件类型的具体类,通过该工厂方法返回。
    11         virtual Status NewSequentialFile(const std::string& fname, SequentialFile** result) = 0;
    12         virtual Status NewRandomAccessFile(const std::string& fname, RandomAccessFile** result) = 0;
    13         virtual Status NewWritableFile(const std::string& fname, WritableFile** result) = 0;
    14 ......
    15     };

    写入

    Leveldb命名空间下,有一个名为log的子命名空间,其下有Writer、Reader两个实现类。按前几节的命名规则,Writer其实是一个Builder,它对外提供了唯一的AddRecord方法用于追加操作记录。

     1         Status Writer::AddRecord(const Slice& slice) {
     2             const char* ptr = slice.data();
     3             size_t left = slice.size();
     4 
     5             // Fragment the record if necessary and emit it.  Note that if slice
     6             // is empty, we still want to iterate once to emit a single
     7             // zero-length record
     8             Status s;
     9             bool begin = true;
    10             do {
    11                 const int leftover = kBlockSize - block_offset_;    //1. 当前块剩余大小
    12                 assert(leftover >= 0);
    13                 if (leftover < kHeaderSize)                         //2. 剩余大小不足,占位
    14                 {
    15                     // Switch to a new block
    16                     if (leftover > 0) 
    17                     {
    18                         // Fill the trailer (literal below relies on kHeaderSize being 7)
    19                         assert(kHeaderSize == 7);
    20                         dest_->Append(Slice("x00x00x00x00x00x00", leftover));
    21                     }
    22                     block_offset_ = 0;
    23                 }
    24 
    25                 // Invariant: we never leave < kHeaderSize bytes in a block.
    26                 assert(kBlockSize - block_offset_ - kHeaderSize >= 0);
    27 
    28                 const size_t avail = kBlockSize - block_offset_ - kHeaderSize;
    29                 const size_t fragment_length = (left < avail) ? left : avail;    //3. 当前块存储的空间大小
    30 
    31                 RecordType type;                                                //4. Record Type
    32                 const bool end = (left == fragment_length);                        
    33                 if (begin && end) {
    34                     type = kFullType;
    35                 }
    36                 else if (begin) {
    37                     type = kFirstType;
    38                 }
    39                 else if (end) {
    40                     type = kLastType;
    41                 }
    42                 else {
    43                     type = kMiddleType;
    44                 }
    45 
    46                 s = EmitPhysicalRecord(type, ptr, fragment_length);            //5. 写入文件
    47                 ptr += fragment_length;
    48                 left -= fragment_length;
    49                 begin = false;
    50             } while (s.ok() && left > 0);
    51             return s;
    52         }

    备忘如下:

    1. Log文件被逻辑上分为多个Block,每个Block大小为32K。
    2. 每条记录由Record Header + Record Content组成,其中Header大小为kHeaderSize(7字节)。
    3. 当前Block剩余大小不足以填充Record Header时,以"x00x00x00x00x00x00"占位。
    4. 当Block无法完整记录一条Record时,通过type信息标识该record在当前block中的区块信息,以便读取时可根据type拼接出完整的record。
    5. EmitPhysicalRecord向Block中插入Record数据
    6. 每个Record结构如下:

    Header

    Record Content

    CRC

    Record Size

    Type

    Record Content

    读取

    Log读取逻辑并无特别之处,略。

    注:LOG文件和活动的MemTable对应,当活动的MemTable将被切换为非活动(immutable)MemTable时,将创建新的LOG文件。

    原本Current、Manifest与Log打算一起备注,但要搞清楚Manifest,LevelDB的版本机制必定要搞清楚,而这本身又是很丰富的内容。

  • 相关阅读:
    springboot之mybatis别名的设置
    webstorm
    万字长文把 VSCode 打造成 C++ 开发利器
    残差residual VS 误差 error
    参数与非参数的机器学习算法
    阿里云产品梳理
    aws产品整理
    Azure产品整理
    OpenStack产品摘要
    头条、美团、滴滴、阿里、腾讯、百度、华为、京东职级体系及对应薪酬
  • 原文地址:https://www.cnblogs.com/desmondwang/p/4817798.html
Copyright © 2020-2023  润新知