Python爬虫实战一之爬取糗事百科段子

参考资料：http://cuiqingcai.com/990.html

1.非面向对象模式

完整代码1：

# -*- coding: utf-8 -*-
import re
import urllib2
import urllib
import thread
import time

page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content.*?<span>(.*?)</span>.*?'
                         +'<span.*?class="stats-vote">.*?<i.*?class="number">(.*?)</i>.*?'
                          +'<span.*?class="dash">.*?<i.*?class="number">(.*?)</i>',re.S)
    items = re.findall(pattern, content)
    for item in items:
         print item[0],item[1],item[2],item[3]
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason
运行结果如下：

注释1：糗事百科是不需要登录的，所以也没必要用到Cookie。

2.面向对象模式

上面代码是最核心的部分，下面我们要达到的目的是：

按下回车，读取一个段子，显示出段子的发布人，发布内容，点赞个数以及评论数。

另外我们需要设计面向对象模式，引入类和方法，将代码做一下优化和封装。

完整代码2：

# -*- coding: utf-8 -*-
import re
import urllib2
import urllib
import thread
import time

# 糗事百科爬虫类
class QSBK:
    # 初始化方法，定义一些变量
def __init__(self):
        self.pageIndex = 1
self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
# 初始化headers
self.headers = {'User-Agent': self.user_agent}
        # 存放段子的变量，每一个元素是每一页的段子们
self.stories = []
        # 存放程序是否继续运行的变量
self.enable = False

# 传入某一页的索引获得页面代码
def getPage(self, pageIndex):
        try:
            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)
            # 构建请求的request
request = urllib2.Request(url, headers=self.headers)
            # 利用urlopen获取页面代码
response = urllib2.urlopen(request)
            # 将页面转化为UTF-8编码
pageCode = response.read().decode('utf-8')
            return pageCode
        except urllib2.URLError, e:
            if hasattr(e, "reason"):
                print u"连接糗事百科失败,错误原因", e.reason
                return None

# 传入某一页代码，返回本页的段子列表
def getPageItems(self, pageIndex):
        pageCode = self.getPage(pageIndex)
        if not pageCode:
            print "页面加载失败...."
return None
print item[0], item[1], item[2], item[3]

        pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content.*?<span>(.*?)</span>.*?'
+ '<span.*?class="stats-vote">.*?<i.*?class="number">(.*?)</i>.*?'
+ '<span.*?class="dash">.*?<i.*?class="number">(.*?)</i>', re.S)
        items = re.findall(pattern,pageCode)
        # 用来存储每页的段子们
pageStories = []
        # 遍历正则表达式匹配的信息
for item in items:
            replaceBR = re.compile('<br/>')
            text = re.sub(replaceBR, "
", item[1])
            # item[0]是一个段子的发布者，item[1]是内容，item[2]点赞数,item[3]评论数
pageStories.append([item[0].strip(), text.strip(), item[2].strip(), item[3].strip()])
        return pageStories
    # 加载并提取页面的内容，加入到列表中
def loadPage(self):
        # 如果当前未看的页数少于2页，则加载新一页
if self.enable == True:
            if len(self.stories) < 2:
                # 获取新一页
pageStories = self.getPageItems(self.pageIndex)
                # 将该页的段子存放到全局list中
if pageStories:
                    self.stories.append(pageStories)
                    # 获取完之后页码索引加一，表示下次读取下一页
self.pageIndex += 1

# 调用该方法，每次敲回车打印输出一个段子
def getOneStory(self, pageStories, page):
        # 遍历一页的段子
for story in pageStories:
            # 等待用户输入
input = raw_input()
            # 每当输入回车一次，判断一下是否要加载新页面
self.loadPage()
            # 如果输入Q则程序结束
if input == "Q":
                self.enable = False
return
            print u"第%d页	发布人:%s	评论:%s	赞:%s
%s" % (page, story[0], story[3], story[2], story[1])

    # 开始方法
def start(self):
        print u"正在读取糗事百科,按回车查看新段子，Q退出"
# 使变量为True，程序可以正常运行
self.enable = True
# 先加载一页内容
self.loadPage()
        # 局部变量，控制当前读到了第几页
nowPage = 0
while self.enable:
            if len(self.stories) > 0:
                # 从全局list中获取一页的段子
pageStories = self.stories[0]
                # 当前读到的页数加一
nowPage += 1
# 将全局list中第一个元素删除，因为已经取出
del self.stories[0]
                # 输出该页的段子
self.getOneStory(pageStories, nowPage)
spider = QSBK()
spider.start()

运行结果如下：

设计面向对象模式

相关阅读:
图的概念、存储、遍历、最短路径问题、最小生成树、拓扑排序、关键路径
 Nginx负载均衡
 Nginx反向代理
 Nginx配置虚拟主机
 Linux下Nginx安装
 freemarker使用
 ActiveMQ与spring整合
 ActiveMQ安装
 全局异常处理
 solr整合spring
原文地址：https://www.cnblogs.com/171207xiaohutu/p/8011494.html