我也是根据:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ,来写出豆瓣读书的爬虫,废话不说直接上代码:
1 #!/usr/bin/env python 2 #-*-coding=utf-8-*- 3 4 import urllib2 5 6 #获取豆瓣读书的分页的页面 7 def doubanbook(url,begin,end): 8 for i in range(begin,end+1): 9 filename = str(i) + '.html' 10 print 'Downloading ' + str(i) + '....... Filename is ' + filename 11 #打开文件对象 12 f = open('/home/dzhwen/python文件/Homework/urllib/douban/doubanbook'+filename,'w+') 13 m = urllib2.urlopen(url + str((i-1)*20)).read() 14 f.write(m) 15 f.close() 16 17 if __name__ == '__main__': 18 url = 'http://book.douban.com/tag/编程?start=' 19 begin = input('请输入你抓取的页数开始为:') 20 end = input('请输入你抓取的页数结束为:') 21 doubanbook(url,begin,end)
我在页面上显示20的原因是由于豆瓣的页面上的url消息有一定的规律。关键还要看具体情况进行调整。该程序还可以用作抓取百度贴吧等等。