制作cpprefernce.chm

制作cpprefernce.chm
在关于C++的参考网站里，我觉得最好的就是cppreference了，然后某天某月的某一天，突然闪现一个想法，要把它作成chm。于是艰难地开始了。

标准C++并没有处理网页的功能，所以要么找库，要么换语言。根据我偶像书里的一句话，C++加python可以解决99.99%的问题，于是我把目光看向了python。不得不说刚开始学的时候挺坑爹的，劳资第一个python程序折腾了一下午，明明看起来一点问题都没有，就是不行，最后原因竟然是因为Tab键，当时我就骂街了。

后来慢慢算是入门了，我开始下网页。一开始，我问小木，有没有什么python的爬虫工具，结果被他一顿吐槽“你这个事情主要工作就是爬虫了，你交给工具来那你不就啥都没干”。于是只好自己来。中间出过一些问题，比如中途挂了，前功尽弃，于是我加了进度保存。代码如下：
```
 1 import urllib.request
 2 import re,os
 3 #保存形如en.cppreference.com????/w/**的网页
 4 
 5 index = "http://en.cppreference.com/"
 6 pattern = re.compile(r'<a href="/w/(c|cpp/.*)" title="c')
 7 inqueue = {"w"}
 8 queue = ["w"]
 9 dir = os.getcwd()
10 offset = 50
11 cnt = 0
12 
13 if os.path.exists("done.txt") and os.path.exists("all.txt"):
14     done = open("done.txt","r")
15     cnt = int(done.readline().strip())
16     done.close()
17     all = open("all.txt","r")
18     for line in all:
19         queue.append(line.strip())
20     all.close()
21     inqueue = set(queue)
22 
23 while len(queue) > cnt:
24     cur = queue[cnt]
25 
26     if cnt > 0 and cnt % offset == 0:
27         all = open("all.txt","w")
28         for line in queue:
29             all.write(line+'
')
30         all.close()
31         done = open("done.txt","w")
32         done.write(str(cnt)+'
')
33         done.close()
34         print(cnt)
35 
36     url = index+cur
37     print(url)
38     req = urllib.request.Request(url)
39     html = urllib.request.urlopen(req)
40     data = html.read()
41     content = data.decode()
42     
43     m = pattern.search(content)
44     while m:
45         str0 = '/w/'+m.group(1).replace(" ","_")
46         if str0 in inqueue:
47             m = pattern.search(content, m.end())
48             continue
49         queue.append(str0)
50         inqueue.add(str0)
51         m = pattern.search(content, m.end())
52         
53     str1 = cur.replace("/","\")
54     file = os.path.join(dir,str1+".html")
55     Path = os.path.dirname(file)
56     if os.path.exists(file):
57         cnt = cnt+1
58         continue
59     if not os.path.exists(Path):
60         os.makedirs(Path)
61     with open(file,"wb") as f:
62         f.write(data)
63 
64     html.close()
65     cnt = cnt+1
66 else:
67     cnt = len(queue)
68     done = open("done.txt","w")
69     done.write(str(cnt)+'
')
70     done.close()
71     print("已完成")
72     input("按回车结束")
```
网页下载以后，还要做一些加工，比如body下header与footer下的内容都要清除，链接也要改成本地链接等等。

然后还没等我开始第二阶段工作的时候，我发现我的爬虫做的不彻底。一些形如“ operator< ”的页面，它的链接为“ operator&lt ”，我并没有抓到。后来又修改了正则表达式，然而这时候我发现我下载不了cppreference的网页了，也许是连续一个多星期以来，我每天都反反复复地下来下去，人家把我拉黑了吧。于是我最新写的正则表达式，效果如何，又会带来什么新问题，都不得而知了。这事就这样先放下了。

……几个月后……

我开始了第三阶段，网页不再是自己抓，而是直接下的离线版。最新的离线版是html_book_20151129，它的结构是这样的：

en下面存放的是html，已经加工过了，可以直接编译成chm。common下放的是配置文件，css等。

使用的工具是easy chm，还要下载hhc.exe和hha.dll，这是微软的用来编译chm的工具；然后下载 itcc.dll 和 itircl.dll 并注册，如果没有它们，编译出来的chm会不支持搜索。把它们全都放到easyCHM.exe的同级目录下。打开程序，新建工程，目录选择/reference/en，然后在搜索选项->其他下，把“自动替换下划线为空格”取消，按确定。

然后界面是这样的：

刚开始问题很多：基本每条目录后面都带着“－cppreference.com”；目录下，只有图标为问号的叶节点有对应的html，图标为书本的父结点没有；极个别链接的地址不对；一些符号如<显示为&lt。这些问题根据个人喜好，可以改也可以不改。下面讲一个示例问题。

如图所示，上面的排版问题。直接用浏览器打开是正常的，编译成chm以后就不换行了。用一个稍微高级点的浏览器查看一下，结果是这样的：

只能理解为微软的IE不支持这种风格了。去w3c查了一下（搜css display），把方式改为block即可。

我在制作的时候，绝大部分时候花在改标题改链接上了，改到想吐。最后得到一个结论：要参考直接上网站不就好了！(╯‵□′)╯︵┻━┻

……一年以后……

推荐使用zeal这款软件，它下载的离线文档正是cppreference的，虽然目录有些乱，但是可以搜索，而且更新频率要高于官网的离线文档。
相关阅读:
Docker容器进入的4种方式
 Linux启动/停止/重启Mysql数据库的方法
 MySQL replace函数替换字符串语句的用法（mysql字符串替换）
php从数组中随机筛选出指定个数的值
 Beyond Compare 4 30天试用期后，破解方法
 MYSQL:1213 Deadlock问题排查历程
 uniapp 屏幕高度
 如何系统学习Spring框架
 mysql 批量修改表前缀
 DHCP中继配置案例
原文地址：https://www.cnblogs.com/lzxskjo/p/5289600.html