• 正则基础


    ### 正则表达式定义和作用
    
    ```
    #正则表达式是什么?
        它是约束字符串匹配某种形式的规则
    #正则表达式有什么用?
        1.检测某个字符串是否符合规则.比如:判断手机号,身份证号是否合法
        2.提取网页字符串中想要的数据.比如:爬虫中,提取网站天气,信息,股票代码,星座运势等具体关键字
    #在线测试工具  http://tool.chinaz.com/regex/
    ```
    
    ### 正则表达式所包含的元素种类
    
    ```
    #正则表达式由一些 [普通字符] 和一些 [元字符] 组成:
        (1)普通字符包括大小写字母和数字
        (2)元字符具有特殊含义,大体种类分为如下:
            1.预定义字符集,字符组
            2.量词
            3.边界符
            4.分组       
    ```
    
    #### (一) 匹配单个字符 => [元字符] 预定义字符集 
    
    | 预定义字符集 | 匹配内容                                               |
    | ------------ | ------------------------------------------------------ |
    | .            | 匹配任意字符,除了换行符
                                 |
    | d           | 匹配数字                                               |
    | D           | 匹配非数字                                             |
    | w           | 匹配字母或数字或下划线     (正则函数中,支持中文的匹配) |
    | W           | 匹配非字母或数字或下划线                               |
    | s           | 匹配任意的空白符                                       |
    | S           | 匹配任意非空白符                                       |
    | 
               | 匹配一个换行符                                         |
    | 	           | 匹配一个制表符                                         |
    | []           | 匹配中括号内列举的字符                                 |
    
    | 字符组格式 | 说明    [默认必须从字符组中选一个]      |
    | ---------- | --------------------------------------- |
    | [...]      | 匹配字符组中的字符                      |
    | [^...]     | 匹配除了字符组内所有内容,之外的所有字符 |
    
    | 字符组内容   | 待匹配字符 | 匹配结果 | 说明                                                  |
    | ------------ | ---------- | -------- | ----------------------------------------------------- |
    | [0123456789] | 8          | True     | 字符组里枚举的各种字符,必须满足一个,否则返回假,不匹配 |
    | [abcdefg]    | 9          | False    | 由于字符组中没有"9"字符,所以不匹配                   |
    | [0-9]        | 7          | True     | 可用 - 表示范围,[0-9] 和 [0123456789]是一个意思       |
    | [a-z]        | s          | True     | [a-z]匹配所有的小写字母                               |
    | [A-Z]        | B          | True     | [A-Z]就表示所有的大写字母                             |
    | [0-9a-fA-F]  | e          | True     | 可以匹配数字,大小写形式的a-f. 该正则可验证十六进制    |
    
    #### (二) 匹配多个字符 => [元字符] 量词符号
    
    | 量词       | 用法说明                  |
    | ---------- | ------------------------- |
    | ?          | 重复0次或1次              |
    | +          | 重复1次或多次  (至少1次)  |
    | *          | 重复0次或多次  (任意次)   |
    | {n}        | 重复n次                   |
    | {n,}       | 重复n次或更多次 (至少n次) |
    | {n,m}      | 重复n到m次                |
    | .*    .+   | 贪婪模式匹配              |
    | .*?    .+? | 非贪婪模式匹配            |
    
    ```
    # 贪婪匹配:   默认向更多次数匹配  (底层用的是回溯算法)
    # 非贪婪匹配:  默认向更少次数匹配 (量词的后面加?号)
        (1)量词( * ? + {} )加上问号?表示非贪婪 惰性匹配
        (2)例:.*?w  表示匹配任意长度任意字符遇到一个w就立即停止
    ```
    
    #### (三) 匹配开头结尾 => [元字符] 边界符号
    
    | 边界符 | 说明               |
    | :----- | ------------------ |
    |      | 匹配一个字符的边界 |
    | ^      | 匹配字符串的开始   |
    | $      | 匹配字符串的结尾   |
    
    #### (四) 匹配分组 => [元字符] 分组符号
    
    | 分组       | 用法说明                                                     |
    | ---------- | ------------------------------------------------------------ |
    | a|b       | 匹配字符a 或 字符b        (如果两个当中有重合部分,把更长的那个放前面) |
    | (ab)       | 匹配括号内的表达式 ,将()作为一个分组                        |
    | 
    um       | 引用分组num匹配到的字符串                                    |
    | (?P<name>) | 给分组命名                                                   |
    | (?P=name)  | 引用别名: 把name分组所匹配到的内容引用到这里                |
    
    ```
    # ###分组
    
    # 1.正常分组 ()
    1) 正常情况下用()圆括号进行分组 可以用1 反向引用第一个圆括号匹配的内容。
    2) (?:正则表达式) 表示取消优先显示的功能
    (正则表达式)    代表分组 findall 把所有分组的内容显示到列表里
    (?:正则表达式)  代表分组 findall 把所有分组的内容不显示到列表里
    
    # 2.命名分组
    3) (?P<组名>正则表达式) 给这个组起一个名字
    4) (?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置
    
    ```
    
    #### (五) 正则表达式修饰符
    
    | 常用修饰符 | 说明                                          |
    | ---------- | --------------------------------------------- |
    | re.I       | 使匹配对大小写不敏感                          |
    | re.M       | 使每一行都能够单独匹配(多行匹配),影响 ^ 和 $ |
    | re.S       | 使 . 匹配包括换行在内的所有字符               |
    
    ### 正则相关函数
    
    ```
    findall  匹配字符串中相应内容,返回列表 [用法: findall("正则表达式","要匹配的字符串")]
    search   通过正则匹配出第一个对象返回,通过group取出对象中的值
    match    验证用户输入内容
    split    切割
    sub      替换 
    subn     替换 
    finditer 匹配字符串中相应内容,返回迭代器
    compile  指定一个统一的匹配规则
    ```
    
    ### 练习
    
    ```
    # 字符组练习
    # print(re.findall('a[abc]b','aab abb acb adb'))
    # print(re.findall('a[0123456789]b','a1b a2b a3b acb ayb'))
    # print(re.findall('a[abcdefg]b','a1b a2b a3b acb ayb adb'))
    # print(re.findall('a[ABCDEFG]b','a1b a2b a3b  aAb aDb aYb'))
    # print(re.findall('a[0-9a-zA-Z]b','a-b aab aAb aWb aqba1b')) 
    # print(re.findall('a[0-9][*#/]b','a1/b a2b a29b a56b a456b'))
    # print(re.findall('a[^-+*/]b',"a%b ccaa*bda&bd"))
    
    # 量词练习
    '''1) ? 匹配0个或者1个a '''
    print(re.findall('a?b','abbzab abb aab'))  
    '''2) + 匹配1个或者多个a '''
    print(re.findall('a+b','b ab aaaaaab abb'))
    '''3) * 匹配0个或者多个a '''
    print(re.findall('a*b','b ab aaaaaab abbbbbbb'))
    '''4) {m,n} 匹配m个至n个a '''
    print(re.findall('a{1,3}b','aaab ab aab abbb aaz aabb'))
    
    # 贪婪匹配 与 非贪婪匹配 [语法:量词的后面加?号]
    print(re.findall('a.*b','aab ab aaaaab a!!!@#$bz')) 
    print(re.findall('a.*?b','aab ab aaaaab a!!!@#$bz')) #
    
    # 边界符练习  ^ $
    strvar = "大哥大嫂大爷"
    print(re.findall('大.',strvar))
    print(re.findall('^大.',strvar))
    print(re.findall('大.$',strvar))
    print(re.findall('^大.$',strvar))
    print(re.findall('^大.*?$',strvar))
    print(re.findall('^大.*?大$',strvar))
    print(re.findall('^大.*?爷$',strvar))
    
    print(re.findall('^g.*? ' , 'giveme 1gfive gay'))
    print(re.findall('five$' , 'aassfive'))
    print(re.findall('^giveme$' , 'giveme'))
    # print(re.findall('^giveme$' , 'giveme giveme'))
    # print(re.findall('giveme' , 'giveme giveme'))
    # print(re.findall("^g.*e",'giveme 1gfive gay'))
    
    
    # 分组练习(用圆括号)
    print(re.findall('.*?_good','wusir_good alex_good secret男_good'))
    print(re.findall('(.*?)_good','wusir_good alex_good secret男_good'))
    print(re.findall('(?:.*?)_good','wusir_good alex_good secret男_good'))
    
    #  | 代表或 , a|b 匹配字符a 或者 匹配字符b . 把字符串长的写在前面,字符串短的写在后面
    # 匹配小数 
    # 匹配小数和整数 
    # 匹配135或171的手机号 
    # 匹配www.baidu.com 或者 www.oldboy.com
    # "5*6-7/3" 匹配 5*6 或者 7/3
    
    ```
  • 相关阅读:
    element-ui 中Message 消息提示
    MYSQL 常用语法格式
    python 爬取必应每日图片
    linux:文件权限管理
    如何建立自我学习的"触发机制"?
    总有那么一些人,把自己的思想强加给别人
    linux 控制history命令历史记录
    linux apt-get 安装与卸载命令
    ubuntu16.04下 安装java8
    历史与过去是一面镜子,它照到的是你现在的自己
  • 原文地址:https://www.cnblogs.com/max404/p/11837817.html
Copyright © 2020-2023  润新知