mongodb数据文件格式

mongodb数据文件格式
mongodb的数据文件存在dbpath选项指定的目录里。每个库(database)都有一系列的文件：dbname.ns, dbname.0, dbname.1, ...数据文件也叫pdfile，意思是Portable Data File。

dbname.ns文件

dbname.ns文件存储命名空间信息。在mongodb里，每个collection都具有一个命名空间，名字为dbname.collection_name。dbname.ns文件存储哈希表节点数组。
struct Node { int hash; // 根据key计算出来的hash值。如果大于0，则表示已经使用；等于0，则表示未使用 Namespace key; // 命名空间的名字，为128字节的char数组 NamespaceDetails value; // 命名空间信息 };
View Code
哈希节点目前大小是628字节，dbname.ns文件的默认大小是16M，一共可以存放26715个命名空间。nssize选项可以设置dbname.ns文件的大小。

如何查找？
n为数组大小，maxChain = (int) (n * 0.05)，chain = 0
a.根据key计算hash值(为一个大于0的整数)
b.i = hash % n(n为数组大小)，start = i，
c.比较下标为i的节点的hash和key，如果相同则找到；如果不同，则i = (i + 1) % n，chain++, 继续比较
d.如果i == start或者chain >= maxChain，则查找失败

寻找空闲节点？
a.根据key计算hash值(为一个大于0的整数)
b.i = hash % n(n为数组大小)，start = i
c.如果下标为i的节点空闲，则返回。否则，i = (i + 1) % n，chain++，继续找
d.如果i == start或者chain >= maxChain，则找不到

实际上，mongodb把上述的2个操作合成一个操作，如果找不到节点，则返回第一个空闲节点。所以，当插入新的节点时，会查找maxChain次。

示例代码

打印一个库的所有命名空间

dbname.<#>系列文件

dbname.<#>系列文件存储了每个库的所有数据，其文件格式为

--------------------------------------------
DataFileHeader
--------------------------------------------
Extent (for a particular namespace)
Record
...
Record (some chained for unused space)
--------------------------------------------
more Extents...
--------------------------------------------

DataFileHeader是数据文件的头部，后面的部分为Extent。

DiskLoc
/** represents a disk location/offset on disk in a database. 64 bits. * it is assumed these will be passed around by value a lot so don't do anything to make them large * (such as adding a virtual function) */ struct DiskLoc { int _a; // this will be volume, file #, etc. but is a logical value could be anything depending on storage engine int ofs; };
View Code
DiskLoc表示数据文件的位置，_a为dbname.<#>文件的编号，ofs为在文件中的偏移，从0开始。

DataFileHeader
class DataFileHeader { public: int version; int versionMinor; int fileLength; DiskLoc unused; /* unused is the portion of the file that doesn't belong to any allocated extents. -1 = no more */ int unusedLength; DiskLoc freeListStart; DiskLoc freeListEnd; char reserved[8192 - 4*4 - 8*3]; char data[4]; // first extent starts here enum { HeaderSize = 8192 }; };
View Code
unused字段是未分配空间的位置，unusedLength为未分配空间的大小。freeListStart和freeListEnd这2个字段比较特殊，只在dbname.0文件中才有效，存储了空闲Extent链表的头部Extent的位置和尾部Extent的位置。对于一个库来说，被删除的collection的所有Extent都会挂到这个空闲Extent链表中。

可以利用这个特性来恢复被删除的collection，示例代码

Extent
class Extent { public: enum { extentSignature = 0x41424344 }; unsigned magic; DiskLoc myLoc; DiskLoc xnext, xprev; /* next/prev extent for this namespace */ /* which namespace this extent is for. this is just for troubleshooting really and won't even be correct if the collection were renamed! */ Namespace nsDiagnostic; int length; /* size of the extent, including these fields */ DiskLoc firstRecord; DiskLoc lastRecord; char _extentData[4]; };
View Code
每个Extent本身是一个双向链表节点，xnext和xprev字段指向后继和前驱节点。Extent内的所有Record也组成一个双向链表，firstRecord指向头部Record，lastRecord指向尾部Record。

Record
class Record { public: enum HeaderSizeValue { HeaderSize = 16 }; private: int _lengthWithHeaders; int _extentOfs; int _nextOfs; int _prevOfs; /** be careful when referencing this that your write intent was correct */ char _data[4]; }; class DeletedRecord { private: int _lengthWithHeaders; int _extentOfs; DiskLoc _nextDeleted; };
View Code
_extentOfs字段表示Record所在Extent在数据文件中的偏移。属于同一个Extent的Record组成一个双向链表，_nextOfs和_prevOfs分别指向后继和前驱。

DeletedRecord是一种特殊的Record，被删除的Record或者Extent中没有分配的空间，都会作为DeletedRecord。根据DeletedRecord的大小，形成19个单向链表，每个链表的表头存在命名空间信息里。

文件空间的分配以Extent为单位。每个命名空间的所申请的Extent形成一个双向链表，表头和表尾存在命名空间信息里。Record在Extent里分配，每个Extent里的所有Record形成一个双向链表，表头和表尾存在Extent头部。可以想到，对命名空间的所有Record的遍历方法为：遍历Extent链表，对每个Extent，遍历其Record链表。空闲的Record(Extent里剩余的空间、或者Record被删除)，称作DeleteRecord，根据其大小，形成19个单向链表（表头也存在命名空间里）。可以想到，申请一个Record的方法：先从空闲的Record里面找；如果找不到，则分配新的Extent。

示例代码

把一个collection的所有记录dump出来
相关阅读:
概率图模型（CPD）（二）
概率图模型（贝叶斯网络）（一）
EM算法理论与推导
 关于无向图的最大团的问题。
机器学习实战基础（四十二）：逻辑回归之 1 概述
 条件独立性
 pl/sql的tnsnames.ora文件配置
 eclipse修改SVN账号密码
 Centos安装
 Linux虚拟机安装
原文地址：https://www.cnblogs.com/tripleH/p/2958147.html

mongodb数据文件格式

dbname.ns文件

dbname.<#>系列文件