• python 正则表达式


    Python正则表达式:

      在Python中实现正则的方式是通过re(regular expression的缩写)模块来实现的,你可以调用re模块的各种方法来实现不同的功能,下面我们就来说下,在Python中通过re模块可以调用那些方法,以及这些方法的作用都是什么;还有就是正则的实例以及各种特殊符号的含义:

      1、re.sub和replace:

         sub的全拼是substitute,也就是替换的意思;既然知道是替换了,那就很容易用到实例中了,其实replace也是替换的意思,只不过它们的用法不太相同,下面用一个例子来详细说明下它们的异同之处:

    >>> import re
    >>> str1 = 'Hello 111 is 222'
    >>> str2 = str1.replace('111','222')
    >>> print(str2)
    Hello 222 is 222
    >>>

       这是一个简单的例子,如果是下面这种情形,把所有的数字都换成222,那么用replace实现起来就比较麻烦,而用re模块的sub方法实现起来就比较的简单:(如果是更复杂的操作,使用replace可能就无法实现了。说明:代码里的d+是有特殊含义的特殊字符,下面会介绍到,在这里的意思是一个或者多个十进制数字)

    >>> import re
    >>> str1 = 'Hello 123 is 456'
    >>> str2 = re.sub('d+','222',str1)
    >>> print(str2)
    Hello 222 is 222
    >>>

      2、re.search()和re.match():

        match: 只从字符串的开始与正则表达式匹配,匹配成功返回matchobject,否则返回none.

        search:将字符串的所有字串尝试与正则表达式匹配,如果所有的字串都没有匹配成功则返回none,否则返回matchobject.

        下面这个例子说明了match和search的异同点,也说明了,在实际的应用中,search用的还是比较多的:

     1 import re
     2 str1 = 'helloword,i am alex'
     3 if not re.match('word',str1):
     4     print('cannot match')
     5 print(re.match('hello',str1).group())
     6 print(re.search('word',str1).group())
     7 
     8 #显示结果
     9 cannot match
    10 hello
    11 word
    View Code

      3、re.split:

        在Python中,如果想对一个字符串进行分割的话,只需要调用str的split方法就可以实现,但是这个split只能根据某个字符来进行分割的操作,如果要同时指定多个字符来进行分割的话,它就无法实现了。

        好在re模块也提供了split这个方法来对字符串进行分割,而且这个方法更加强大,可以同时根据多个字符进行分割的操作,下面来分别看一下str的split和re的split有什么不同的地方(在第六行的代码中,中括号中的意思是以,; 这三个字符中的一个为分割点分割):

     1 str1 = 'helloword,i;am
    alex'
     2 str2 = str1.split(',')
     3 print(str2)
     4 
     5 import re
     6 str3 = re.split('[,|;|
    ]',str1)
     7 print(str3)
     8 
     9 #下面是不同的输出结果
    10 ['helloword', 'i;am
    alex']
    11 ['helloword', 'i', 'am', 'alex']

        从中我们可以看出,上面说的真实性。

      4、findall:

        findall方法基本上都是和compile方法同时出现的,它们的用法是:

          先由compile将一个正则表达式的字符串形式转换成pattern实例,然后再使用pattern实例调用findall方法生成match对象来获取结果,在讲它们结合的实例之前,我们先来看下正则表达式中预设的特殊字符含义:

        d  匹配任何十进制数;它相当于类 [0-9]。

        D  匹配任何非数字字符;它相当于类 [^0-9]。

        s  匹配任何空白字符;它相当于类  [ "t"n"r"f"v]。

        S  匹配任何非空白字符;它相当于类 [^ "t"n"r"f"v]。

        w  匹配任何字母数字字符;它相当于类 [a-zA-Z0-9_]。

        W  匹配任何非字母数字字符;它相当于类 [^a-zA-Z0-9_]。

       看完这几个特殊字符的含义,我们再举一个例子来说明一下上面的论点:

     1 import re
     2 
     3 str1 = 'asdf12dvdve4gb4'
     4 pattern1 = re.compile('d')
     5 pattern2 = re.compile('[0-9]')
     6 mch1 = pattern1.findall(str1)
     7 mch2 = pattern2.findall(str1)
     8 print('mch1:	%s'% mch1)
     9 print('mch2:	%s'% mch2)
    10 
    11 #输出结果
    12 mch1:    ['1', '2', '4', '4']
    13 mch2: ['1', '2', '4', '4']

       上面的两个实例都可以很好的阐述上面的论点,而且也表明了,特殊字符d确实跟[0-9]是一样的,通过输出结果就可以看出,那么如果你不想把每个数字都拆分为一个元素放在列表中,而是想把12整体的输出出来,那么你可以这样做:(就是在d的后面加上个+号来实现的,这里的+号表示的是把一个或者多个相连的十进制数字整体输出)

     1 import re
     2 
     3 str1 = 'asdf12dvdve4gb4'
     4 pattern1 = re.compile('d+')
     5 pattern2 = re.compile('[0-9]')
     6 mch1 = pattern1.findall(str1)
     7 mch2 = pattern2.findall(str1)
     8 print('mch1:	%s'% mch1)
     9 print('mch2:	%s'% mch2)
    10 
    11 #输出结果
    12 mch1:    ['12', '4', '4']
    13 mch2:    ['1', '2', '4', '4']
    View Code

       我们再举一个小例子,这个例子是结合特殊字符和re的sub功能实现一下把字符串中所有的空格都给去掉:

    1 import re
    2 
    3 str1 = 'asd 	f12d   vdve4gb4'
    4 new_str = re.sub('s*','',str1)
    5 print(new_str)
    6 
    7 #输出结果
    8 asdf12dvdve4gb4

      5、元字符:

        我们通常所说的二元字符有;2元字符:.   ^   $   *   +   ?   { }   [ ]   |   ( )   

        我们首先考察的元字符是"[" 和 "]"。它们常用来指定一个字符类别,所谓字符类别就是你想匹配的一个字符集。字符可以单个列出,也可以用“-”号分隔的两个给定
    字符来表示一个字符区间。例如,[abc] 将匹配"a", "b", 或 "c"中的任意一个字符;也可以用区间[a-c]来表示同一字符集,和前者效果一致。如果你只想匹配小写字母,那么应写成 [a-z].元字符在类别里并不起作用。例如,[akm$]将匹配字符"a", "k", "m", 或 "$" 中的任意一个;"$"通常用作元字符,但在字符类别里,其特性被除去,恢复成普通字
    符。

        []:元字符[]表示字符类,在一个字符类中,只有字符^、-、]和有特殊含义。字符仍然表示转义,字符-可以定义字符范围,字符^放在前面,表示非.(这个在上面的特殊字符示例中也有提现),

        +           匹配+号前内容1次至无限次
        ?           匹配?号前内容0次到1次
        {m}         匹配前面的内容m次
        {m,n}       匹配前面的内容m到n次

        下面通过一个小例子,来阐述一下上面的字符在元字符[]中的使用:(在下面的这个例子中,要注意的有两点:一是在d+后面的?号的含义,二是在匹配的前面加上了一个字符r,其实在这个示例中,加与不加都可以显示一样的结果)

    1 >>> import re
    2 >>> print(re.findall(r"a(d+?)","a123b"))
    3 ['1']
    4 >>> print(re.findall(r"a(d+)","a123b"))
    5 ['123']
    6 >>>

         但是下面这个示例,如果前面不加r的话,就显得那么臃肿(通过这个例子,你就能看到有的时候在匹配字符的前面加上r的好处是什么了!!):

            

    1 print(re.findall("a(\\)","a\123b"))
    2 
    3 print(re.findall(r"a(\)","a\123b"))
    4 
    5 #输出结果
    6 ['\']
    7 ['\']

      下面说下元字符{}的使用

              print(re.findall(r"a[d+]{0,1}","a123b"))   ==》输出 ['a1']

              print(re.findall(r"a[d+]{1,2}","a123b"))   ==》输出 ['a12']

  • 相关阅读:
    easyui学习笔记1—增删改操作
    sql点滴37—mysql中的错误Data too long for column '' at row 1
    javascript获取当前url
    escape()、encodeURI()、encodeURIComponent()区别详解
    js文本框提示和自动完成
    javascript js string.Format()收集
    超链接标签为什么会造成页面颤抖
    asp.net mvc 4.0常见的几个问题
    如何使用Flashfxp上传下载文件
    点击按钮显示谷歌地图
  • 原文地址:https://www.cnblogs.com/madq-py/p/5595810.html
Copyright © 2020-2023  润新知