• python爬虫抓取哈尔滨天气信息(静态爬虫)


    python 爬虫 爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 
    
    

    环境

    windows7

    python3.4(pip install requests;pip install BeautifulSoup4)

    代码:(亲测可以正确执行)

     1 # coding:utf-8
     2 """
     3 总结一下,从网页上抓取内容大致分3步:
     4 1、模拟浏览器访问,获取html源代码
     5 2、通过正则匹配,获取指定标签中的内容
     6 3、将获取到的内容写到文件中
     7 """
     8 import requests  # 用来抓取网页的html源代码
     9 import csv  # 将数据写入到csv文件中
    10 import random  # 取随机数
    11 import time  # 时间相关操作
    12 import socket  # 用于异常处理
    13 import http.client  # 用于异常处理
    14 from bs4 import BeautifulSoup  # 用来代替正则式取源码中相应标签中的内容
    15 
    16 
    17 # 获取网页中的html代码
    18 def get_content(url, data=None):
    19     header = {
    20         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    21         'Accept-Encoding': 'gzip, deflate',
    22         'Accept-Language': 'zh-CN,zh;q=0.9',
    23         'Connection': 'keep-alive',
    24         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    25     }
    26     timeout = random.choice(range(80, 180))  # timeout是设定的一个超时时间,取随机数是因为防止被网站认定为网络爬虫
    27     while True:
    28         try:
    29             rep = requests.get(url, headers=header, timeout=timeout)
    30             rep.encoding = 'utf-8'  # rep.encoding = ‘utf-8’是将源代码的编码格式改为utf-8
    31             break
    32         except socket.timeout as e:
    33             print('3:', e)
    34             time.sleep(random.choice(range(8, 15)))
    35 
    36         except socket.error as e:
    37             print('4:', e)
    38             time.sleep(random.choice(range(20, 60)))
    39 
    40         except http.client.BadStatusLine as e:
    41             print('5:', e)
    42             time.sleep(random.choice(range(30, 80)))
    43 
    44         except http.client.IncompleteRead as e:
    45             print('6:', e)
    46             time.sleep(random.choice(range(5, 15)))
    47 
    48     return rep.text
    49 
    50 
    51 # 获取html中我们所需要的字段
    52 def get_data(html_text):
    53     final = []
    54     bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象
    55     body = bs.body  # 获取body部分
    56     data = body.find('div', {'id': '7d'})  # 找到id为7d的div
    57     ul = data.find('ul')  # 获取ul部分
    58     li = ul.find_all('li')  # 获取所有的li
    59 
    60     for day in li:  # 对每个li标签中的内容进行遍历
    61         temp = []
    62         date = day.find('h1').string  # 找到日期
    63         temp.append(date)  # 添加到temp中
    64         inf = day.find_all('p')  # 找到li中的所有p标签
    65         temp.append(inf[0].string, )  # 第一个p标签中的内容(天气状况)加到temp中
    66         if inf[1].find('span') is None:
    67             temperature_highest = None  # 天气预报可能没有当天的最高气温(到了傍晚,就是这样),需要加个判断语句,来输出最低气温
    68         else:
    69             temperature_highest = inf[1].find('span').string  # 找到最高温
    70             temperature_highest = temperature_highest.replace('', '')  # 到了晚上网站会变,最高温度后面也有个℃
    71         temperature_lowest = inf[1].find('i').string  # 找到最低温
    72         temperature_lowest = temperature_lowest.replace('', '')  # 最低温度后面有个℃,去掉这个符号
    73         temp.append(temperature_highest)  # 将最高温添加到temp中
    74         temp.append(temperature_lowest)  # 将最低温添加到temp中
    75         final.append(temp)  # 将temp加到final中
    76 
    77     return final
    78 
    79 
    80 # 写入文件csv
    81 def write_data(data, name):
    82     file_name = name
    83     with open(file_name, 'a', errors='ignore', newline='') as f:
    84         f_csv = csv.writer(f)
    85         f_csv.writerows(data)
    86 
    87 
    88 if __name__ == '__main__':
    89     url = 'http://www.weather.com.cn/weather/101050101.shtml'
    90     html = get_content(url)
    91     result = get_data(html)
    92     write_data(result, 'weather.csv')

     

     讲解

    python标准库-----内置函数open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

    • 函数作用:打开一个文件并返回文件对象。如果文件不能打开,抛出异常OSError。
    • file:是一个字符串的文件名称,或者是一个数组表示的文件名称。文件名称可以是相对当前目录的路径,也可以是绝对路径表示。
    • mode:是指打开文件的模式。

      1)‘r’表示打开文件只读,不能写。

      2)‘w’表示打开文件只写,并且清空文件。

      3)‘x’表示独占打开文件,如果文件已经存打开就会失败。

      4)‘a’表示打开文件写,不清空文件,在文件后尾追加的方式写入。

      5)‘b’表示二进制的模式打开文件。

      6)‘t’表示文本模式,默认情况下就是这种模式。

      7)‘+’打开文件更新(读取或写入)。

      8)缺省时的模式就相当于’rt’。比如’w+b’就是打开文件进入读写,把文件清空;’r+b’打开文件,但不把文件  清空。

    • 参数buffering是一个可选的参数,用来表示缓冲区的策略选择。设置为0时,表示不使用缓冲区,直接读写,仅在二进制模式下有效。设置为1时,表示在文本模式下使用行缓冲区方式。设置为大于1时,表示缓冲区的设置大小。如果参数buffering没有给出,使用默认时,会采用下面策略来选择:

      1)对于二进制文件模式时,采用固定块内存缓冲区方式,内存块的大小根据系统设备的分配的磁盘块来决定,如果获取系统磁盘块的大小失败,就使用内部常量io.DEFAULT_BUFFER_SIZE定义的大小。一般的操作系统上,块的大小是4096或者8192字节大小。

      2)对于交互的文本文件(采用isatty()判断为True)时,采用一行缓冲区的方式。其它文本文件使用跟二进制一样的方式。

    • 参数encoding是指明对文件编码,仅适用于文本文件。如果不明编码方式,默认是使用locale.getpreferredencoding()函数返回的编码方式。
    • 参数errors是用来指明编码和解码错误时怎么样处理。不能在二进制的模式下使用。

      1)当指明为’strict’时,编码出错则抛出异常ValueError。

      2)当指明为’ignore’时,忽略错误。

      3)当指明为’replace’时,使用某字符进行替代模式,比如使用’?’来替换出错的。

      4)其它相应还有surrogateescape/xmlcharrefreplacs/backslashreplace。

    • 参数newline是用来控制文本模式之下,一行的结束字符。可以是None,’’, , , 等。

      1)当在读取模式下,如果新行符为None,那么就作为通用换行符模式工作,意思就是说当遇到 , 或 都可以作为换行标识,并且统一转换为 作为文本输入的换行符。当设置为空’’时,也是通用换行符模式工作,但不作转换为 ,输入什么样的,就保持原样全输入。当设置为其它相应字符时,就会判断到相应的字符作为换行符,并保持原样输入到文本。

      2)当在输出模式时,如果新行符为None,那么所有输出文本都是采用 作为换行符。如果设置为’’或者 时,不作任何的替换动作。如果是其它字符,会在字符后面添加 作为换行符。

  • 相关阅读:
    软件工程第三次作业
    软件工程第二次作业
    Java基础篇
    2018软件工程第一次作业
    网络基础知识(http请求)
    linux命令
    添加电子称程序
    多线程Demo
    关闭一个winform窗体刷新另外一个
    通过WebApi取出XML数据
  • 原文地址:https://www.cnblogs.com/sunshine-blog/p/9292875.html
Copyright © 2020-2023  润新知