一键构造你的博客目录

一键构造你的博客目录

最近看了一下吴军的数学之美。书很好，废话我就不多少了。看了第9章图论和网络爬虫，一直都觉得网络爬虫很牛B，搜索引擎不就是用爬虫爬网页的吗，于是想写一个简单的爬虫来爬网页试试，最先想到的就是给自己的博客建一个目录，够小够简单了吧，于是就有了这篇文章，简单的分享一下，先申明我的实现很简单没有技术含量，在看下文之前可以先看看我的博客目录。源码必共享

简单介绍一下网络爬虫的原理：给你一个网页地址，先把这个网页下载下来，然后分析这个网页的内容，得到这个网页中的所有链接，然后下载这些网页，继续分析下载。这样就能下载互联网上的很多网页。原理就这么简单，实现起来就不那么容易了。由于深入不了只能说简单的。

构造我的博客目录思路简单分析。获得你的所有文章的地址及标题，然后将这些文章分类。你的文章其实是已经分类好了的，只用得到你的文章的所有分类，然后根据分类得到所有分类下的文章，就可以得到你所有的文章及其分类，构造你的博客目录就容易了。

被否定了的思路一：随便拿到我的一篇文章的地址，下载这篇文章，然后分析这个地址，得到这篇文章里面的所有链接，按照一定的规则得到我的文章地址，即排除无用的连接，然后以爬虫的思路得到我的所有文章，由于每篇文章都有它的分类，所以很快就能构造我的博客目录了。然而由于博客园的实现不是我想的那样，在下载一篇文章的时候，没有下面的内容，因为下面的内容就像一个双向链表一样将我的所有文章连接起来了，我只要知道一篇文章的地址，通过这个”双向链表“我就能得到我的所有文章了，可就是下载网页里偏偏没有下面的内容，于是这个最接近爬虫的方法被PASS掉了。

被否定了的思路二。每个人的文章都是分页显示的，我就可以下载这些内容，然后就可以得到我的所有文章，可还是有个问题，跟上面一样的原因，妹的，下载的网页中没有文章的分类，得到了所有的文章，却不知道文章的分类，叫我怎么构造目录啊。于是又被PASS掉了。

要构造我的博客目录，这么简单的需求方法当然是很多的了，于是用了个不太想爬虫的方法。就是上面所说的，得到所有文章的分类，下载每个分类下的文章，构造博客目录。获得我的博客分类的方法很简单，如获取我的文章分类方法如下：

请求这个地址：http://www.cnblogs.com/hlxs/mvc/blog/sidecolumn.aspx

传入参数blogApp=hlxs;(hlxs是我在博客园的ID)

这样就得到了我文章的所有分类，然后按照分类得到分类下的所有文章，在构造博客目录就简单了。在这个过程中只要知道某人在博客园的ID就能构造它的博客目录，我说一键构造你的博客目录不为过吧。

如果你也想构造你的博客目录，可以先看看我的博客目录，构造你的博客目录很简单，运行程序，输入你的博客园ID，会自动生成一个”我的博客目录.txt”，将文件的内容以源码的方式发表就行。
相关阅读:
poj 1159
poj1102
在WebDynpro中的table控件中添加Search help的方法
 用Writer写的第一篇日志
 上路
 C# IList， ArrayList与List的区别详解 & 简单用法举例
 诸葛亮为什么难以入围千古名相之列
 Silverlight5.0正式发布附下载地址
 arcgis server 9.3 问题总结[转]
AO 直接调用GeoProcessing 工具
原文地址：https://www.cnblogs.com/hlxs/p/2918760.html