8.Python爬虫实战一之爬取糗事百科段子

大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。

首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。

1.抓取糗事百科热门段子

2.过滤带有图片的段子

 1 #coding:utf-8
 2 import urllib
 3 import urllib2
 4 import re
 5 page = 1
 6 url = 'https://www.qiushibaike.com/hot/page/1/'+str(page)
 7 user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
 8 headers = {'User-Agent':user_agent}
 9 
10 try:
11     request = urllib2.Request(url,headers=headers)
12     response = urllib2.urlopen(request)
13     qiubaiPattern =re.compile('<div.*?author.*?alt="(.*?)>.*?content.*?span>(.*?)</.*?number">(.*?)<',re.S)
14     infos = re.findall(qiubaiPattern,response.read().decode('utf-8'))
15     for info in infos:
16         for a in info:
17             str = a.replace('<br/>','
') #将段子正文中的<br/>替换成回车
18             print str.strip() #删除字符中的首尾空格
19 
20 except urllib2.URLError,e:
21         if hasattr(e,'code'):
22             print e.code
23         if hasattr(e,'reason'):
24             print e.reason

在这里不打算详细讲解这个代码,以后有空了再回来补上嘻嘻

相关阅读:
Kali渗透测试——UPNP网关发现工具Miranda
Kali渗透测试——UPNP网关发现工具Miranda
Kali渗透测试——EtherApe
Kali渗透测试——EtherApe
ValueError: Input 0 of node import/save/Assign was passed float from import/beta1_power:0 incompatib
tensorflow C++：You must define TF_LIB_GTL_ALIGNED_CHAR_ARRAY for your compiler
tensorflow C++手写数字识别
使用C/C++编写Python扩展库
软中断和硬中断
系统调用和函数调用

原文地址：https://www.cnblogs.com/stephenmc/p/7487168.html