• python_day10


    小甲鱼python学习笔记

    爬虫之正则表达式

    1.入门(要import re)

    正则表达式中查找示例:

    >>> import re
    >>> re.search(r'FishC','I love FishC.com')
    <re.Match object; span=(7, 12), match='FishC'>
    >>> #单纯的这种查找str的find方法也可以实现
    >>> 'I love FishC.com'.find('FishC')
    7
    View Code

    通配符:在正则表达式中为“ .”(点),即可以代表任何字符。如果找“.”这个字符本身,可以通过转义“.”

    还可以通过特殊字符找到数字。

    >>> re.search(r'.','I love FishC.com')
    <re.Match object; span=(0, 1), match='I'>
    >>> re.search(r'Fish.','I love FishC.com')
    <re.Match object; span=(7, 12), match='FishC'>
    >>> re.search(r'.','I love FishC.com')
    <re.Match object; span=(12, 13), match='.'>
    >>> re.search(r'd','I love 123 FishC.com')
    <re.Match object; span=(7, 8), match='1'>
    >>> re.search(r'ddd','I love 123 FishC.com')
    <re.Match object; span=(7, 10), match='123'>
    View Code

    寻找IP地址:

    >>> re.search(r'ddd.ddd.ddd.ddd','192.168.111.123')
    <re.Match object; span=(0, 15), match='192.168.111.123'>

    但是上面这种寻找IP地址的方法存在问题。比如:当IP地址不满足上面格式的时候就找不到(192.168.1.3)

    字符类:

    中括号创建字符类,看匹配字符类中哪一个

    <re.Match object; span=(0, 15), match='192.168.111.123'>
    >>> re.search(r'[aeiou]','I love FishC.com')#区分大小写
    <re.Match object; span=(3, 4), match='o'>
    View Code

    正则表达式中‘-’表示范围

    >>> re.search(r'[a-z]','I love FishC.com')
    <re.Match object; span=(2, 3), match='l'>
    >>> re.search(r'[0-9]','I love 123 FishC.com')
    <re.Match object; span=(7, 8), match='1'>
    View Code

    正则表达式中‘{数字}’表示重复次数

    >>> re.search(r'ab{3}c','abbbc')
    <re.Match object; span=(0, 5), match='abbbc'>
     
    >>> re.search(r'ab{3}c','abbbbbbc')#找不到哦匹配结果
     
    >>> re.search(r'ab{3,10}c','abbbbbbbc')#3到10中都可以
    <re.Match object; span=(0, 9), match='abbbbbbbc'>
    View Code

    寻找0-255的数字

    >>> re.search(r'[01]dd|2[0-4]d|25[0-5]','188')
    <re.Match object; span=(0, 3), match='188'>
    
     

    寻找IP地址

    >>> re.search(r'(([01]{0,1}d{0,1}d|2[0-4]d|25[0-5]).){3}([01]{0,1}d{0,1}d|2[0-4]d|25[0-5])','192.168.1.3')
    <re.Match object; span=(0, 11), match='192.168.1.3'>

    2.正则表达式模式

    模式描述
    ^ 匹配字符串的开头
    $ 匹配字符串的末尾。
    . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
    [...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
    [^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
    re* 匹配0个或多个的表达式。
    re+ 匹配1个或多个的表达式。
    re? 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
    re{ n} 精确匹配 n 个前面表达式。例如, o{2} 不能匹配 "Bob" 中的 "o",但是能匹配 "food" 中的两个 o。
    re{ n,} 匹配 n 个前面表达式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
    re{ n, m} 匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
    a| b 匹配a或b
    (re) 匹配括号内的表达式,也表示一个组
    (?imx) 正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域。
    (?-imx) 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
    (?: re) 类似 (...), 但是不表示一个组
    (?imx: re) 在括号中使用i, m, 或 x 可选标志
    (?-imx: re) 在括号中不使用i, m, 或 x 可选标志
    (?#...) 注释.
    (?= re) 前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。
    (?! re) 前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功
    (?> re) 匹配的独立模式,省去回溯。
    w 匹配字母数字及下划线
    W 匹配非字母数字及下划线
    s 匹配任意空白字符,等价于 [ f].
    S 匹配任意非空字符
    d 匹配任意数字,等价于 [0-9].
    D 匹配任意非数字
    A 匹配字符串开始
     匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。
    z 匹配字符串结束
    G 匹配最后匹配完成的位置。
     匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
    B 匹配非单词边界。'erB' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
    , , 等. 匹配一个换行符。匹配一个制表符。等
    1...9 匹配第n个分组的内容。
    10 匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式。

     3.模式对象

    >>> p=re.compile(r'[A-Z]')
    >>> p.search("I love fishC.com")
    <re.Match object; span=(0, 1), match='I'>
    >>> p.findall("I love fishC.com")
    ['I', 'C']
    View Code

    4.search()方法

    >>> result=re.search(r' (w+) (w+)','I love FishC.com')
    >>> result
    <re.Match object; span=(1, 12), match=' love FishC'>
    >>> result.group()
    ' love FishC'
    >>> result.group(1)
    'love'
    >>> result.group(2)
    'FishC'
    View Code
    >>> result.start()
    1
    >>> result.end()
    12
    >>> result.span()
    (1, 12)
    View Code

    5.findall()方法,爬取贴吧图片

     1 import urllib.request
     2 import re
     3 
     4 def open_url(url):
     5     req=urllib.request.Request(url)
     6     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')
     7     page=urllib.request.urlopen(req)
     8     html=page.read().decode('utf-8')
     9     return html
    10 def get_img(html):
    11     p=r'<img class="BDE_Image" src="([^"]+.jpg)"'
    12     imglist=re.findall(p,html)
    13     #for each in imglist:
    14      #   print(each)
    15     for each in imglist:
    16         filename=each.split("/")[-1]
    17         urllib.request.urlretrieve(each,filename,None)
    18 if __name__=='__main__':
    19     url='https://tieba.baidu.com/p/6105104081'
    20     get_img(open_url(url))
    View Code

    6.异常处理

    URLError:

    >>> import urllib.request
    >>> import urllib.error
    >>> req=urllib.request.Request("http://www.ooxx-fishc.com")
    >>> try:
        urllib.request.urlopen(req)
    except urllib.error.URLError as e:
        print(e.reason)
    
        
    [Errno 11001] getaddrinfo failed
    View Code

    HTTPError:是URLError的子类

     req=urllib.request.Request("http://www.runoob.com/python/pythontkinter.html")
    >>> try:
        urllib.request.urlopen(req)
    except urllib.error.HTTPError as e:
        print(e.code)
        print(e.read())
    
        
    404
    View Code
  • 相关阅读:
    __doPostBack的使用
    【转】function,new,constructor and prototye
    谈谈一些网页游戏失败的原因到底有哪些?(转)
    全面剖析页游巨头发家史(转)
    2013.02.20开通博客
    老子喜欢的女人
    如何成为强大的程序员?(转)
    注重健康
    学习方法总结
    数据库知识点滴积累
  • 原文地址:https://www.cnblogs.com/wwq1204/p/10735596.html
Copyright © 2020-2023  润新知