• mongodb数据文件格式


    mongodb的数据文件存在dbpath选项指定的目录里。每个库(database)都有一系列的文件:dbname.ns, dbname.0, dbname.1, ...数据文件也叫pdfile,意思是Portable Data File。

    dbname.ns文件

    dbname.ns文件存储命名空间信息。在mongodb里,每个collection都具有一个命名空间,名字为dbname.collection_name。dbname.ns文件存储哈希表节点数组。

    struct Node {
        int hash;               // 根据key计算出来的hash值。如果大于0,则表示已经使用;等于0,则表示未使用
        Namespace key;          // 命名空间的名字,为128字节的char数组
        NamespaceDetails value; // 命名空间信息
    };
    View Code

    哈希节点目前大小是628字节,dbname.ns文件的默认大小是16M,一共可以存放26715个命名空间。nssize选项可以设置dbname.ns文件的大小。

    如何查找?
    n为数组大小,maxChain = (int) (n * 0.05),chain = 0
    a.根据key计算hash值(为一个大于0的整数)
    b.i = hash % n(n为数组大小),start = i,
    c.比较下标为i的节点的hash和key,如果相同则找到;如果不同,则i = (i + 1) % n,chain++, 继续比较
    d.如果i == start或者chain >= maxChain,则查找失败

    寻找空闲节点?
    a.根据key计算hash值(为一个大于0的整数)
    b.i = hash % n(n为数组大小),start = i
    c.如果下标为i的节点空闲,则返回。否则,i = (i + 1) % n,chain++,继续找
    d.如果i == start或者chain >= maxChain,则找不到

    实际上,mongodb把上述的2个操作合成一个操作,如果找不到节点,则返回第一个空闲节点。所以,当插入新的节点时,会查找maxChain次。

    示例代码

    打印一个库的所有命名空间

    dbname.<#>系列文件

    dbname.<#>系列文件存储了每个库的所有数据,其文件格式为

    --------------------------------------------
    DataFileHeader
    --------------------------------------------
    Extent (for a particular namespace)
    Record
    ...
    Record (some chained for unused space)
    --------------------------------------------
    more Extents...
    --------------------------------------------

    DataFileHeader是数据文件的头部,后面的部分为Extent。

    DiskLoc

    /** represents a disk location/offset on disk in a database.  64 bits.
      * it is assumed these will be passed around by value a lot so don't do anything to make them large
      * (such as adding a virtual function)
      */
    struct DiskLoc
    {
        int _a;     // this will be volume, file #, etc. but is a logical value could be anything depending on storage engine
        int ofs;
    };
    View Code

    DiskLoc表示数据文件的位置,_a为dbname.<#>文件的编号,ofs为在文件中的偏移,从0开始。

    DataFileHeader

    class DataFileHeader {
        public:
            int version;
            int versionMinor;
            int fileLength;
            DiskLoc unused; /* unused is the portion of the file that doesn't belong to any allocated extents. -1 = no more */
            int unusedLength;
            DiskLoc freeListStart;
            DiskLoc freeListEnd;
            char reserved[8192 - 4*4 - 8*3];
    
            char data[4]; // first extent starts here
    
            enum { HeaderSize = 8192 };
    };
    View Code

    unused字段是未分配空间的位置,unusedLength为未分配空间的大小。freeListStart和freeListEnd这2个字段比较特殊,只在dbname.0文件中才有效,存储了空闲Extent链表的头部Extent的位置和尾部Extent的位置。对于一个库来说,被删除的collection的所有Extent都会挂到这个空闲Extent链表中。

    可以利用这个特性来恢复被删除的collection,示例代码

    Extent

    class Extent {
        public:
            enum { extentSignature = 0x41424344 };
            unsigned magic;
            DiskLoc myLoc;
            DiskLoc xnext, xprev; /* next/prev extent for this namespace */
    
            /* which namespace this extent is for.  this is just for troubleshooting really
               and won't even be correct if the collection were renamed!
            */
            Namespace nsDiagnostic;
    
            int length;   /* size of the extent, including these fields */
            DiskLoc firstRecord;
            DiskLoc lastRecord;
            char _extentData[4];
    };
    View Code

    每个Extent本身是一个双向链表节点,xnext和xprev字段指向后继和前驱节点。Extent内的所有Record也组成一个双向链表,firstRecord指向头部Record,lastRecord指向尾部Record。

    Record

    class Record {
        public:
            enum HeaderSizeValue { HeaderSize = 16 };
    
        private:
    
            int _lengthWithHeaders;
            int _extentOfs;
            int _nextOfs;
            int _prevOfs;
    
            /** be careful when referencing this that your write intent was correct */
            char _data[4];
    };
    
    class DeletedRecord {
        private:
            int _lengthWithHeaders;
            int _extentOfs;
            DiskLoc _nextDeleted;
    };
    View Code

    _extentOfs字段表示Record所在Extent在数据文件中的偏移。属于同一个Extent的Record组成一个双向链表,_nextOfs和_prevOfs分别指向后继和前驱。

    DeletedRecord是一种特殊的Record,被删除的Record或者Extent中没有分配的空间,都会作为DeletedRecord。根据DeletedRecord的大小,形成19个单向链表,每个链表的表头存在命名空间信息里。

    文件空间的分配以Extent为单位。每个命名空间的所申请的Extent形成一个双向链表,表头和表尾存在命名空间信息里。Record在Extent里分配,每个Extent里的所有Record形成一个双向链表,表头和表尾存在Extent头部。可以想到,对命名空间的所有Record的遍历方法为:遍历Extent链表,对每个Extent,遍历其Record链表。空闲的Record(Extent里剩余的空间、或者Record被删除),称作DeleteRecord,根据其大小,形成19个单向链表(表头也存在命名空间里)。可以想到,申请一个Record的方法:先从空闲的Record里面找;如果找不到,则分配新的Extent。

    示例代码

    把一个collection的所有记录dump出来

  • 相关阅读:
    概率图模型(CPD)(二)
    概率图模型(贝叶斯网络)(一)
    EM算法理论与推导
    关于无向图的最大团的问题。
    机器学习实战基础(四十二):逻辑回归之 1 概述
    条件独立性
    pl/sql的tnsnames.ora文件配置
    eclipse修改SVN账号密码
    Centos安装
    Linux虚拟机安装
  • 原文地址:https://www.cnblogs.com/tripleH/p/2958147.html
Copyright © 2020-2023  润新知