• python网络爬虫--简单爬取糗事百科


      刚开始学习python爬虫,写了一个简单python程序爬取糗事百科。

      具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4959489,可以发现page后的数据代表第几页。

      然后装配request,注意要设置user_agent

    1 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    2 headers = {'User-Agent': user_agent}
    3 request=urllib2.Request(url,headers=headers)
    4 response=urllib2.urlopen(request)

      然后获取返回的数据

    content=response.read().decode('utf-8')

      然后是关键,使用正则匹配出所有的具体内容。这里可以使用浏览器的检查功能查看页面结构,写出相对应的正则式,比如我们对下面的<div class="content">...</div>进行匹配的正则式如下

    pattern=re.compile('<div class="content">....<span>(.*?)</span>...</div>',re.S)
    items=re.findall(pattern,content)

      (.*?)   :表示组,该部分为一个整体,将该部分匹配到字符串作为返回值返回,findall表示找到所有匹配的字符串,以序列的形式返回

      参数re.S表示"."点号匹配所有字符包括换行

    下面是完整代码

     1 import urllib
     2 import urllib2
     3 import re
     4 import time
     5 
     6 page=2
     7 f=open("D:qiushi.txt","r+")
     8 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
     9 headers = {'User-Agent': user_agent}
    10 while page<100:
    11     url="http://www.qiushibaike.com/8hr/page/"+str(page)+"/?s=4959460"
    12 
    13     print url
    14     try:
    15         request=urllib2.Request(url,headers=headers)
    16         response=urllib2.urlopen(request)
    17         content=response.read().decode('utf-8')
    18         # print content
    19         pattern=re.compile('<div class="content">....<span>(.*?)</span>...</div>',re.S)
    20         items=re.findall(pattern,content)
    21         f.write((url+"
    ").encode('utf-8'))
    22         for item in items:
    23             print "------"
    24             item=item+"
    "
    25             print item
    26             f.write("------
    ".encode('utf-8'))
    27             f.write(item.replace('<br/>','
    ').encode('utf-8'))
    28     except urllib2.URLError,e:
    29         if hasattr(e,"code"):
    30             print e.code
    31         if hasattr(e,"reason"):
    32             print e.reason
    33     finally:
    34         page+=1
    35         time.sleep(1)

    这里我是将找到的输出到d盘下的qiushi.txt文件

      

  • 相关阅读:
    为什么网站不被百度收录或收录清零?
    XmlSerializer序列化一组成员到文本文件
    windows phone不同页面间传值
    windows phone下进行Isolated的IO读写
    windows Phone 后退键历史的清除
    Window Phone ListBox的DataBinding:
    VGA的相关代码
    如何避免Quartus II自動將未宣告的信號視為wire?
    XINLINX约束心得
    VIM配置文件备份
  • 原文地址:https://www.cnblogs.com/wuyoucao/p/6434972.html
Copyright © 2020-2023  润新知