CHM格式

转载请标明出处：https://www.cnblogs.com/tangZH/p/11176995.html

CHM格式为CHM头，CHM头节，内容三部分组成。

总体格式图：

初始化头包含了CHM的相关信息。格式如下：

0000：char [4]'ITSF'
0004：DWORD 3（版本号）
0008：DWORD 文件头总长度，包括标题节表和
               以下数据。
000C：DWORD 1（未知）
0010：DWORD 时间戳。
               被认为是一个大端的DWORD，它似乎包含
               秒（MSB）和小数秒（第二个字节）。
	       第三个和第四个字节可能包含更多的小数
               位。最后一个字节中的4个最低有效位是
               不变。
0014：DWORD 语言代码：英文 0X0409，简体中文：0X0804
0018：GUID {7C01FD10-7BAA-11D0-9E0C-00A0-C922-E6EC}
0028：GUID {7C01FD11-7BAA-11D0-9E0C-00A0-C922-E6EC}

头节记录。它是2个条目，每个条目的长度为10个字节，具有以下格式：

0000：QWORD  头节的偏移量
0008：QWORD  头节的长度

这两个头节分别指向头节0和头节1，根据这两个头节的偏移量便可以读到两个头节。

内容节偏移。在版本2文件中，此数据不存在，因为内容部分紧跟在目录之后：

0000：QWORD 内容节的偏移量

头节0。此部分包含文件的总大小，而不是其他内容。

0000：DWORD 0X01FE（未知）
0004：DWORD 0（未知）
0008：QWORD 文件大小
0010：DWORD 0（未知）
0014：DWORD 0（未知）

头节1。.chm文件的核心部分：它包含的文件和信息的目录。

目录头：

0000：char [4]'ITSP'
0004：DWORD 版本号1
0008：DWORD 目录头的长度
000C：DWORD 0X0a（未知）
0010：DWORD 0X1000目录块大小
0014：DWORD 快速引用块密度，通常为2。
0018：DWORD 索引树的深度
               1：没有索引，2：一层索引，以此类推。
001C：DWORD 根索引块的块号，如果没有则为-1
               （尽管至少有一个文件有0，尽管没有
	       index chunk，可能是个bug。） 
0020：DWORD 第一个PMGL（列表）块的块号
0024：DWORD 最后一个PMGL（列表）块的块号
0028：DWORD -1（未知）
002C：DWORD 目录块数（总计）
0030：DWORD Windows语言ID
0034：GUID {5D02926A-212E-11D0-9DF9-00A0C922E6EC}
0044：DWORD 0X54（这又是长度），同0X1000
0048：DWORD -1（未知）
004C：DWORD -1（未知）
0050：DWORD -1（未知）

目录头之后紧跟着目录块，有两种目录块：列表块和索引块，如果只有一个列表快，那么将没有索引块。

列表块：

0000：char [4]'PMGL'
0004：DWORD 结尾处的自由空间和/或quickref区域的长度目录块 
0008：DWORD 始终为0。 
000C：DWORD 读取时上一个列表块的块号
               顺序目录（如果这是第一个列表块，则为-1）
0010：DWORD 读取时下一个列表块的块号
               顺序目录（如果这是最后一个列表块，则为-1）
0014：目录列表条目（到quickref区域）排序方式根据文件名; 排序不区分大小写。

quickref区域是从块的末尾向后写入。对于文件中的每n个条目存在一个quickref条目，其中n被计算为1 +（1 << quickref density）。因此，对于密度= 2，n = 5。

其格式从后到前为：

Chunklen-0002：整个数据块中的项数
Chunklen-0004：从0项到n项之间的偏移量
Chunklen-0006：从0项到2n项之间的偏移量
......

目录列表条目的格式如下：

  ENCINT：名字长度
  UTF-8：编码的名称（UTF-8编码）
  ENCINT：内容部分
  ENCINT：偏移量
  ENCINT：长度

偏移量是从文件解压缩之后的正文段开始计算的。长度也指解压后的长度。

目录中表示的文件有两种：用户数据和格式相关文件。与格式相关的文件具有以“::”开头的名称，用户数据文件的名称以“/”开头。

索引块：

0000：char [4]'PMGI'
0004：DWORD 目录块末尾的quickref / free（空余）区域的长度
0008：目录索引项

PMGI中的quickref区域与PMGL中的相同，当索引块的层次较高时，将不再存储数据块号而是存储下一层的索引号。

目录索引项的格式如下：

  ENCINT：名字长度
  UTF-8：名称（UTF-8编码）
  ENCINT：以此名称开始的列表块的块号

内容：

在版本3中，内容通常紧跟在文件头之后，并且位于文件头表之后的DWORD指示的位置。在版本2中，内容紧跟在文件头之后。目录中的所有内容部分0位置都与该点相关。其他内容部分存储在内容部分0中。而且所有此文件夹中的正文部分的第0段都放在这个位置上。其他的正文段都在这个正文段里面。

名单列表文件

在内容部分0和目录中存在名为“:: DataSpace / NameList”的文件。此文件包含所有内容部分的名称。格式如下：

0000：WORD 文件长度，用文字表示
0002：WORD 文件中的条目数

每个条目：
0000：WORD 单词中的名称长度，不包括终止null
0002：WORD 。以0表示所有entry的结束。名称的编码类似于UFT-16。 段的名称目前为止只有两种,Uncompressed和MSCompressed,分别表示未压缩文件和Microsoft LZX压缩算法压缩的文件。
xxxx：WORD 0

Section_data：
对于段落编号不为0的段落，还有另一个文件：DataSpace / Storage / <Section_Name> / Content，它存储段落的压缩信息。因此，在解析非零段落时，需要两个步骤。第一步是获取第，并获取段落名称。第二步是使用段落名称查找相应的段落。

其余与格式相关的文件: ::DataSpace/Storage/<SectionName>/ControlData

共0x20个字节,存储关于压缩的信息:

参考链接：

https://wenku.baidu.com/view/c2f81e21aaea998fcc220e22.html?pn=1

http://www.pythonclub.org/python-files/chm-format

相关阅读:
No.20 selenium学习之路之文件读写
 No.19 selenium学习之路之os模块
 No.18 selenium学习之路之批量执行测试用例
 python进阶学习之高阶函数
 python进阶学习之匿名函数lambda
No.17 selenium学习之路之判断与等待
 Educational Codeforces Round 83 (Rated for Div. 2)【ABCDEF】（题解）
Codeforces Round #626 (Div. 2, based on Moscow Open Olympiad in Informatics)【ABCDE】（题解）
牛客练习赛58【ABCDEF】（题解）
CodeCraft-20 (Div. 2)【ABCDE】（题解）
原文地址：https://www.cnblogs.com/tangZH/p/11176995.html