http://www.cnblogs.com/JamesLi2015/p/3151191.html#3112203
倾情奉献 博客园博客下载工具 完美下载所有博客 保存格式为DOC,PDF,EPUB,XPS
做技术经常要查询资料,也有保存收藏资料的习惯。 博客园是个好地方,资料的质量比较高,整体关注某一个系列的资料,从这边入手会比较好。我自己也经常写博客,收集有用的技术资料。在前年,我设计了一套Data Solution解决方案,后来因多方原因搁浅,没有深入下去。具体内容请参考相关连接,地址是http://www.cnblogs.com/JamesLi2015/archive/2011/11.html。
Data Solution中有一个重要的组件是爬虫。从博客园中抓取文章到本地文件,可以保存为DOC,PDF,XPS,EPUB等多种格式。最近在群(QQ群: 1637 21037) 里面有需求是要备份博客内容,正好我有这个组件,于是整理一下,奉献给大家下载使用。
整个程序只有一个界面,不需要第三方运行库,编译时以.NET 4为编译平台。如果不能运行,请先下载.NET 4 运行库。
有二种方法下载博客知识文章。一种方法是以博主Id为主,我把它放在User Id面板中。如上图所示
输入的数据格式是:
http://www.cnblogs.com/dudu/ http://www.cnblogs.com/JamesLi2015/
之后点击Start即可开始下载。
第二种方式是,从一堆html文本中,下载这里面包含的html文章,比如,我比较喜欢一个系列的文章,你可以进去找到相关的联接,拷贝到这里,点Analysis分析一下有多少联接,再根据需要选择,再点Start开始下载。
以我的喜好,我把这个网页中的 http://www.cnblogs.com/AllBloggers.aspx
排名前300的文本拷贝到Text面板中,点Analysi按钮,再点Select All按钮,进行下载。
默认勾选DOC格式,以Word 2003的格式保存。Remove Temp File是下载完成后,删掉中间文件。
这就是全部的内容。这个工具可以用来下载你喜欢的专题或是博主文章。
来看一下效果,最终下载完成后的效果:
1 保存为DOC格式是必须的,这个可以编辑,修改,剪切。再延伸一点,你可以把喜欢的片段保存到自己的知识库中。
以我自己的方式,我喜欢EverNote,2.2 绿色版,不到8M的大小,与数据库文件放在一起。
2 PDF,XPS为只读格式,如果你不想要,可以从Configuration面板中去掉,不勾选。
3 EPUB格式是方便手机阅读的,虽然手机中用Office 格式看也可以,以我的经验,不理想,屏幕小,上下左右移动很频繁。我这边没有测试EPUB格式的手机,如果EPUB格式有问题,请向我报告问题。
4 暂时只支持博客园,其它的流行的博客有的有问题,待完整测试后再集成进去。宁可让系统稳定,少一点功能,也不希望看到经常崩溃或是莫名奇妙的问题出现。
程序下载地址: Document Exporter
有好的建议或是问题报告,请加群或是给我写邮件,谢谢支持。
1.1 版已经更新,请大家重新下载新的文件。
1. 可支持下载附件。如果文章中有附件,也会同时将附件下载到与文章相同的目录中,当前支持格式为ZIP和RAR。
2. 目录文本框可以选择目录。
3. 可支持下载取消。