#-*- coding: utf-8 -*- import urllib import urllib2 import re #页面为1 page=1 url='http://www.qiushibaike.com/hot/page/'+str(page) #需要header验证 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent } try: #获取地址 request=urllib2.Request(url,headers=headers) #打开连接 response=urllib2.urlopen(request) #输出读取内容 #print response.read() content=response.read().decode('utf-8') # 去奇趣百科找不带图片的段子结构,匹配正则,糗百的标签会不定时改变,正则可能要重新匹配 pattern = re.compile( '<div.*?author.*?users.*?<h2>(.*?)</h2>.*?content.*?<span>(.*?)</span>.*?vote.*?number">(.*?)</i>.*?comments.*?number">(.*?)</i>', re.S) #<div.*?author.*?users.*?<h2>(.*?)</h2>.*?content.*?<span>(.*?)</span>.*?<a.*?img.*?>(.*?)</a> # 组 作者,内容,点赞,评论 items=re.findall(pattern,content) for item in items: print item[0],item[1],item[3] except urllib2.URLError,e: if hasattr(e,'code'): print e.code if hasattr(e,'reason'): print e.reason