• 正则表达式(五)- 拆分


    内容包括:

    结构和操作符
    注意要点
    案例分析
    

    1、结构和操作符

    操作符优先级问题
    在正则表达式中,操作符都体现在结构中,即由特殊字符和普通字符所代表的一个个特殊整体。
    正则表达式结构:字符字面量、字符组、量词、锚、分组、选择分支、方向引用。

    具体含义如下:

    结构 说明
    字面量 匹配一个具体字符,包括不用转义的和需要转义的。比如a匹配字符"a"
    又比如 匹配换行符,又比如.匹配小数点。
    字符组 匹配一个字符,可以是多种可能之一,比如[0-9],表示匹配一个数字。
    也有d的简写形式。
    另外还有反义字符组,表示可以是除了特定字符之外任何一个字符,比如[^0-9]
    表示一个非数字字符,也有D的简写形式。
    量词 表示一个字符连续出现,比如a{1,3}表示"a"字符连续出现1~3次。
    另外还有常见的简写形式,比如a+表示"a"字符连续出现至少一次。
    匹配一个位置,而不是字符。比如^匹配字符串的开头,又比如匹配单词边界,
    又比如(?=d)表示数字前面的位置。
    分组 用括号表示一个整体,比如(ab)+, 表示"ab"两个字符连续出现多次,
    也可以使用非捕获分组(?:ab)+
    分支 多个子表达式多选一,比如`abc

    操作符:

    操作符描述 操作符 优先级
    转义符 1
    括号和方括号 (...)、(?:...)、(?=...)、(?!...)、[...] 2
    量词限定符 {m}、 {m,n}、 {m,}、 ?、 *、 + 3
    位置和序列 ^ 、$、 元字符、一般字符 4
    管道符(竖杠) | 5

    上面操作符的优先级从上到下,由高到低。

    2、注意要点

    关于结构和操作符,还是有几点需要强调:

    2.1 匹配字符串整体问题

    因为是要匹配整个字符串,我们经常会在正则前后中加上锚^$
    比如要匹配目标字符串"abc"或者"bcd"时,如果一不小心,就会写成/^abc|bcd$/
    而位置字符和字符序列优先级要比竖杠高,应该修改成:/^(abc|bcd)$/

    2.2 量词连缀问题

    假设,要匹配这样的字符串:

    1. 每个字符为 "a、"b"、"c" 任选其一,
    2. 字符串的长度是 3 的倍数。
      此时正则不能想当然地写成 /[1]{3}+$/,这样会报错,说 + 前面没什么可重复的:
      此时要修改成:/([abc]{3})+/

    2.3 元字符转义问题

    所谓元字符,就是正则中有特殊含义的字符。
    所有结构里,用到的元字符总结如下:^$.*+?|/()[]{}=!:-

    2.3.1 字符组中的元字符

    跟字符组相关的元字符有 []^-。因此在会引起歧义的地方进行转义。例如开头的 ^ 必须转义,不然 会把整个字符组,看成反义字符组。

    2.3.2 匹配 "[abc]""{3,5}"

    我们知道 [abc],是个字符组。如果要匹配字符串 "[abc]" 时,该怎么办?
    可以写成 /[abc]/,也可以写成 /[abc]/,测试如下:

    var string = "[abc]";
    var regex = /[abc]/g;
    console.log( string.match(regex)[0] ); // "[abc]"
    

    只需要在第一个方括号转义即可,因为后面的方括号构不成字符组,正则不会引发歧义,自然不需要转义。

    同理,要匹配字符串 "{3,5}",只需要把正则写成/{3,5}/即可。
    另外,我们知道量词有简写形式 {m,},却没有 {,n} 的情况。虽然后者不构成量词的形式,但此时并不会报 错。当然,匹配的字符串也是 "{,n}",测试如下:

    var string = "{,3}";
    var regex = /{,3}/g;
    console.log( string.match(regex)[0] ); //  "{,3}"
    

    2.3.3 其余情况

    比如 =!:-、, 等符号,只要不在特殊结构中,并不需要转义。
    但是,括号需要前后都转义的,如 /(123)/
    至于剩下的 ^$.*+?|/ 等字符,只要不在字符组内,都需要转义的。


    1. abc ↩︎

  • 相关阅读:
    Linux系统调用
    Linux的中断 & 中断和异常的区别
    system v和posix的共享内存对比 & 共享内存位置
    epoll里面mmap释疑
    提高网络效率的总结
    推荐相关学习 & 典型算法、典型特征、典型推荐系统框架
    最大似然法理解
    调试多线程 & 查死锁的bug & gcore命令 & gdb对多线程的调试 & gcore & pstack & 调试常用命令
    内存屏障 & Memory barrier
    锁相关知识 & mutex怎么实现的 & spinlock怎么用的 & 怎样避免死锁 & 内核同步机制 & 读写锁
  • 原文地址:https://www.cnblogs.com/xsnow/p/11959513.html
Copyright © 2020-2023  润新知