urllib2模块初体验———豆瓣读书页面下载小爬虫

我也是根据：http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ，来写出豆瓣读书的爬虫，废话不说直接上代码：

 1 #!/usr/bin/env python
 2 #-*-coding=utf-8-*-
 3 
 4 import urllib2
 5 
 6 #获取豆瓣读书的分页的页面
 7 def doubanbook(url,begin,end):
 8     for i in range(begin,end+1):
 9         filename = str(i) + '.html'
10         print 'Downloading ' + str(i) + '....... Filename is ' + filename
11         #打开文件对象
12         f = open('/home/dzhwen/python文件/Homework/urllib/douban/doubanbook'+filename,'w+')
13         m = urllib2.urlopen(url + str((i-1)*20)).read()
14         f.write(m)
15         f.close()
16 
17 if __name__ == '__main__':
18     url = 'http://book.douban.com/tag/编程?start='
19     begin = input('请输入你抓取的页数开始为:')
20     end = input('请输入你抓取的页数结束为:')
21     doubanbook(url,begin,end)

我在页面上显示20的原因是由于豆瓣的页面上的url消息有一定的规律。关键还要看具体情况进行调整。该程序还可以用作抓取百度贴吧等等。

相关阅读:
ucore lab4 内核线程管理学习笔记
谈谈博客三迁的经历
ucore lab3 虚拟内存管理学习笔记
ucore lab2 物理内存管理学习笔记
ucore lab1 操作系统启动过程学习笔记
【VMware】在移动硬盘或U盘中安装便携linux系统
借助ADB冻结与卸载Android系统应用（免ROOT）
Windows下查找各类游戏存档路径
QMetaObject::connectSlotsByName: No matching signal for XXX 原理探究
将VScode添加至右键菜单

原文地址：https://www.cnblogs.com/sysu-blackbear/p/3630465.html