• Python re模块(正则表达式)


    一、简介

      正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。需导入re模块。强烈建议使用Python的“r”前缀,就不用考虑转义的问题。

    二、常用的字符含义

    1.预定义字符

    字符 含义 举例 结果
     d 数字:[0-9] adc a1c
    D 非数字:[^d] aDc abc
    s 匹配任何空白字符:[<空格> fv] asc a  c
    S 非空白字符:[^s] aSc abc
    w 匹配包括下划线在内的任何字字符:[A-Za-z0-9_] awc abc
    W 匹配非字母字符,即匹配特殊字符 aWc a  c
     匹配w和W之间,即匹配一个单词边界,也就是指被匹配的内容的左边(在左)或右边(在右)不能有字母或数字。例如, 'er' ,匹配"er"的左右旁不能有字母或数字。 abc

    abc%

    B [^] aBbc abc
    uxxxx 匹配以十六进制数编码的Unicode字符 [u4e00-u9fa5] 汉字/中文

    2.元字符

    字符 含义 举例 结果
    普通内容 匹配自身 abc abc
    . 匹配任意字符,除换行符" "外(在DOTALL模式中也能匹配换行符) a.c

    abc;

    a&c

    转义字符,使后一个字符改变原来的意思

    a.c;

    a\c

    a.c;

    ac

    * 匹配前一个字符任意次 abc*

    ab;

    abccc

    + 匹配前一个字符至少1次 abc+

    abc;

    abccc

    ? 匹配前一个字符0次或1次 abc?

    ab;

    abc

    ^ 匹配字符串开头。在多行模式中匹配每一行的开头 ^abc abc
    $ 匹配字符串末尾,在多行模式中匹配每一行的末尾 abc$ abc
    | 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式 abc|def

    abc

    def
    {} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若{m,},则匹配m至无限次 ab{1,2}c abc;
    abbc
    [] 字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。
       注:所有特殊字符在字符集中都失去其原有的特殊含义。用反斜杠转义恢复特殊字符的特殊含义。
    a[bcd]e abe;
    ace;
    ade
    () 被括起来的表达式将作为分组,从表达式左边开始没遇到一个分组的左括号"(",编号+1.
    分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。
    (abc){2}
    a(123|456)c
    abcabc
    a456c

    3.特殊分组

    分组 描述 举例 结果
    (?P<name>) 分组命名。字母P大写 (?P<id>abc){2} abcabc
    (?P=name) 引用命名分组匹配到的字符串 (?P<id>d)abc(?P=id) 1abc1;
    5abc5
    <number> 引用编号为<number>的分组匹配到字符串 (d)abc1 1abc1;
    5abc5

    三、常用方法

    1)re.match(pattern, string, flags):尝试从字符串的【开头】匹配【一个】模式。
      text="JGood 666666 is a handsome boy, he is cool, clever, and so on..."
      m=re.match(r"(w+)s", text) #结果是“JGood ”
      m=re.match(r"d+", text) #结果是None,因为数字不在开头

    2)re.search(pattern, string, flags):在【整个】字符串内查找模式匹配,只到找到第一个匹配就返回。
      text="JGood 666666 is a handsome boy, he is cool, clever, and so on..."
      m=re.search(r"d+", text) #结果是“666666”

    3)re.findall(pattern, string, flags):获取字符串中所有匹配的字符串。
      text="JGood 666666 is a handsome boy, he is cool, clever, and so on..."
      m=re.findall(r'e',text) #结果是['e', 'e', 'e', 'e']

    4)re.finditer(pattern, string, flags):获取字符串中所有匹配的字符串,并把它们作为一个迭代器返回。

    5)用正则表达式切分字符串比用固定的字符更灵活,如:
      re.split(r's+', 'a b c') #必须是re包的split()方法。以一个或多个空格切分。

    6)re.compile(pattern, flags):把模板pattern编译成正则对象,提高效率。

    compile方法flags值
    含义
    re.S(DOTALL)
    使.匹配包括换行在内的所有字符
    re.I(IGNORECASE)
    使匹配对大小写不敏感
    re.L(LOCALE)
    做本地化识别(locale-aware)匹配,法语等
    re.M(MULTILINE)
    多行匹配,影响^和$
    re.X(VERBOSE)
    该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
    re.U
    根据Unicode字符集解析字符,这个标志影响w,W,,B

    7)正则表达式分组:用“()”表示的就是要提取的分组,然后用方法group(num1,num2)返回组号为num1,num2所匹配的字符串,groups()返回所有分组所组成的元组(通常不需参数)。
      正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符。加问号“?”可以去除贪婪匹配。如:re.match(r'^(d+?)(0*)$', '102300').groups()

      

      至此,转载请注明出处。

  • 相关阅读:
    SQL语句获取数据库名、表名、储存过程以及参数列表 狼
    CKEditor3.3+CKFinder2.0附带CKF去除水印 狼
    media player 和realplayer 编程接口 狼
    教您如何去认识人!(识人术) 狼
    引用 JS判断浏览器类型方法 狼
    (转)初始化多维数组
    kmeans 聚类 (代码为: 博客数据聚类) (python )
    对博客订阅源URL中的单词进行计数 (仅限英文博客,中文订阅源不支持 )
    eclipse +python 修改 各种颜色 +字体
    常见错误收集: lucene 读取word文档问题
  • 原文地址:https://www.cnblogs.com/wcwnina/p/7217699.html
Copyright © 2020-2023  润新知