• 博客园博客下载工具 完美下载所有博客 保存格式为DOC,PDF,EPUB,XPS


    做技术经常要查询资料,也有保存收藏资料的习惯。 博客园是个好地方,资料的质量比较高,整体关注某一个系列的资料,从这边入手会比较好。我自己也经常写博客,收集有用的技术资料。在前年,我设计了一套Data Solution解决方案,后来因多方原因搁浅,没有深入下去。具体内容请参考相关连接,地址是http://www.cnblogs.com/JamesLi2015/archive/2011/11.html

    Data Solution中有一个重要的组件是爬虫。从博客园中抓取文章到本地文件,可以保存为DOC,PDF,XPS,EPUB等多种格式。最近在群(QQ群: 1637 21037) 里面有需求是要备份博客内容,正好我有这个组件,于是整理一下,奉献给大家下载使用。

    整个程序只有一个界面,不需要第三方运行库,编译时以.NET 4为编译平台。如果不能运行,请先下载.NET 4 运行库。

    image

    有二种方法下载博客知识文章。一种方法是以博主Id为主,我把它放在User Id面板中。如上图所示

    输入的数据格式是:

    http://www.cnblogs.com/dudu/
    http://www.cnblogs.com/JamesLi2015/

    之后点击Start即可开始下载。

    第二种方式是,从一堆html文本中,下载这里面包含的html文章,比如,我比较喜欢一个系列的文章,你可以进去找到相关的联接,拷贝到这里,点Analysis分析一下有多少联接,再根据需要选择,再点Start开始下载。

    image

    以我的喜好,我把这个网页中的 http://www.cnblogs.com/AllBloggers.aspx

    排名前300的文本拷贝到Text面板中,点Analysi按钮,再点Select All按钮,进行下载。

    配置页面的内容是保存格式的配置
    image

    默认勾选DOC格式,以Word 2003的格式保存。Remove Temp File是下载完成后,删掉中间文件。

    这就是全部的内容。这个工具可以用来下载你喜欢的专题或是博主文章。

    来看一下效果,最终下载完成后的效果:

    image

    1  保存为DOC格式是必须的,这个可以编辑,修改,剪切。再延伸一点,你可以把喜欢的片段保存到自己的知识库中。

    以我自己的方式,我喜欢EverNote,2.2 绿色版,不到8M的大小,与数据库文件放在一起。

    image

    2 PDF,XPS为只读格式,如果你不想要,可以从Configuration面板中去掉,不勾选。

    3 EPUB格式是方便手机阅读的,虽然手机中用Office 格式看也可以,以我的经验,不理想,屏幕小,上下左右移动很频繁。我这边没有测试EPUB格式的手机,如果EPUB格式有问题,请向我报告问题。

    4  暂时只支持博客园,其它的流行的博客有的有问题,待完整测试后再集成进去。宁可让系统稳定,少一点功能,也不希望看到经常崩溃或是莫名奇妙的问题出现。

    程序下载地址: Document Exporter

    有好的建议或是问题报告,请加群或是给我写邮件,谢谢支持。

    1.1 版已经更新,请大家重新下载新的文件。

    1.  可支持下载附件。如果文章中有附件,也会同时将附件下载到与文章相同的目录中,当前支持格式为ZIP和RAR。

    2.  目录文本框可以选择目录。

    3.  可支持下载取消。

    出处:https://www.cnblogs.com/JamesLi2015/p/3151191.html

  • 相关阅读:
    Java 21-Spring知识
    Java18-黑马旅游网学习制作
    Java17-Filter&Listener&Json&redis&maven
    python发邮件
    一元模型拟合(OLS和插值np拟合)
    一元模型拟合
    2.13 描述性统计(平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差))
    tushare 股票数据获取,收益率计算,直方图绘制
    主板指数数据的爬取(selenium处理JS)
    网页整页截图小工具
  • 原文地址:https://www.cnblogs.com/mq0036/p/12888920.html
Copyright © 2020-2023  润新知