博客园文件下载并转成Markdown格式

博客园文件下载并转成Markdown格式
博客园的随笔分类来建立文件夹并下载相应的随笔原稿件，文章格式为md格式，同时支持离线文章中引用的图片。

如果文件是HTML格式的，可以自动将HTML文章自动解析为Markdown（可补全不规范的HTML标签，更精准的成解析Markdown）

其中用到了两个库：
1. lxml（转成良好的HTML格式）
2. html2text(将HTML转换成MarkDown格式)
github地址：https://github.com/BobinYang/cnblogs-blogger-downloader

Configuration

运行前需要配置config.ini：
1. 修改config.ini.example文件名为config.ini，使用文本编辑器打开
2. 打开浏览器登录博客园后台，登录时勾选"记住我"
3. 登录后浏览器按F12，找到Cookie，拷贝.Cnblogs.AspNetCore.Cookies的值到config.ini中
4. 其余选项按需填写，文件需以UTF-8编码保存
开启离线后，随笔中的图片链接会被替换自动为本地图片的链接

Dependencies

运行pip install前需关闭系统全局代理
```
pip install httpx
```
Start

配置好程序并安装好httpx依赖后，命令行运行：
```
python main.py
```
会看到打印的输出:

Features

下载的文件名为随笔标题，分类和标题中的特殊字符\/:*?"<>|会被空格代替，文件编码为UTF-8

程序会区分你的随笔是否是公开的，是否是草稿状态，并在文件名后追加[非公开]或[草稿]

程序只能在Windows下运行，未做其他系统适配

如果你在博客园中删除了一篇文章，程序不会删除相应的本地文章

.CnblogsDownloaderFlag.json中保存着上次运行程序的时间，如果博客园中的文章未更新，那么不会反复下载

一旦程序决定要下载某篇随笔，那么它会覆盖此随笔及其引用的图片

代码块中的图片也会被下载，只要它的链接是有效的，比如你的随笔中有下列内容
```
假如这是你的随笔原稿
```
<img src="https://github.com/Charles94jp/cnblogs-blogger-downloader/blob/master/img/logo.png?raw=true">
```
那么上面代码块里的图片也会被下载
```
For Developer

博客园公开的api文档：https://api.cnblogs.com/help

但显然不够用，而且要申请api权限，于是自己根据网络通信总结了几个重要的api的文档：cnblogs-apiDoc

项目目录结构
```
.

├── docs                                   项目API文档，GitHub Pages
├── img                                    readme文档图片	
├── lib                      
│    ├── cnblogs-apiDoc.md                     博客园接口文档
│    └── cnblogs_api.py                        博客园http接口库
├── sphinx                                 构建项目API文档
│     ├── source
│     │     ├── _static
│     │     ├── _templates
│     │     ├── lib
│     │     ├── cnblogs_downloader.rst
│     │     ├── conf.py                            sphinx配置文件
│     │     ├── favicon.ico
│     │     ├── index.rst
│     │     └── main.rst
│     ├── Makefile
│     └── make.bat
├── LICENSE                                项目开源许可证
├── cnblogs_downloader.py                  程序主要逻辑实现
├── config.ini.example                     配置文件示例
├── main.py                                程序入口
└── readme.md                              自述文件
```
Document

本项目API文档：Document

根据代码文档注释构建API文档：
```
pip install sphinx sphinx-rtd-theme
sphinx-build.exe -b html .\sphinx\source\ docs
```
注意docs/lib/cnblogs-apiDoc.html typora.css和docs/.nojekyll是手动添加进去的

Links

其他能帮助拿回博客园数据的方法：
- 博客园官方备份功能：缺点是下载的文件是一个xml，不易于阅读及分离文章
- InfoSpider ，缺点是它下载的是一个json文件，亦不能直接食用
相关阅读:
Go语言中的管道(Channel)总结
 Go语言的构建方法总结
 Java里的equals总结
 Cracking the coding interview 第二章问题及解答
 2014年度总结
 一种识别验证码方法的介绍
 由记忆的角度分析我们学习为什么要知其所以然
 pvlan 配置
 f5 数据转发分析
 elasticsearch logstash kibana 研究第一篇
原文地址：https://www.cnblogs.com/springsnow/p/16254912.html

博客园文件下载并转成Markdown格式

Configuration

Dependencies

Start

Features

For Developer

Document

Links