• 2015-03-06——正则表达式基础


    学习资源:http://deerchao.net/tutorials/regex/regex.htm

    是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格,标点符号或者换行来分隔的,但是并不匹配这些单词分隔字符中的任何一个,它只匹配一个位置。

    .是另一个元字符,匹配除了换行符以外的任意字符。*同样是元字符,不过它代表的不是字符,也不是位置,而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。

    d是个新的元字符,匹配一位数字

    元字符
    .     匹配除换行符以外的任意字符
    w     匹配字母或数字或下划线或汉字
    s     匹配任意的空白符
    d     匹配数字
         匹配单词的开始或结束
    ^     匹配字符串的开始
    $     匹配字符串的结束

    限定符
    *     重复零次或更多次
    +     重复一次或更多次
    ?     重复零次或一次
    {n}     重复n次
    {n,}     重复n次或更多次
    {n,m}     重复n到m次

    [.?!]匹配标点符号(.或?或!)。

    “(”和“)”也是元字符,后面的分组节里会提到,所以在这里需要使用转义。

    [] => | => ()

    反义代码
    W     匹配任意不是字母,数字,下划线,汉字的字符
    S     匹配任意不是空白符的字符
    D     匹配任意非数字的字符
    B     匹配不是单词开头或结束的位置
    [^x]     匹配除了x以外的任意字符
    [^aeiou]     匹配除了aeiou这几个字母以外的任意字符

    后向引用
    (w+)s+1可以用来匹配重复的单词,像go go, 或者kitty kitty。这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字((w+)),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(1)。

    你也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(?<Word>w+)(或者把尖括号换成'也行:(?'Word'w+)),这样就把w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用k<Word>,所以上一个例子也可以写成这样:(?<Word>w+)s+k<Word>。

    常用分组语法
    捕获     
    (exp)     匹配exp,并捕获文本到自动命名的组里
    (?<name>exp)     匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)    k<name>
    (?:exp)     匹配exp,不捕获匹配的文本,也不给此分组分配组号
    零宽断言     
    (?=exp)     匹配exp前面的位置
    (?<=exp)     匹配exp后面的位置
    (?!exp)     匹配后面跟的不是exp的位置
    (?<!exp)     匹配前面不是exp的位置
    注释     
    (?#comment)     这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读


    (?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如w+(?=ing),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。

    (?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=re)w+会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。


    当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

    有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧


    *?     重复任意次,但尽可能少重复
    +?     重复1次或更多次,但尽可能少重复
    ??     重复0次或1次,但尽可能少重复
    {n,m}?     重复n到m次,但尽可能少重复
    {n,}?     重复n次以上,但尽可能少重复

    处理选项
    IgnoreCase(忽略大小写)     匹配时不区分大小写。
    Multiline(多行模式)     更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配 之前的位置以及字符串结束前的位置.)
    Singleline(单行模式)     更改.的含义,使它与每一个字符匹配(包括换行符 )。
    IgnorePatternWhitespace(忽略空白)     忽略表达式中的非转义空白并启用由#标记的注释。
    ExplicitCapture(显式捕获)     仅捕获已被显式命名的组。

    平衡组/递归匹配(c#)

  • 相关阅读:
    Node.js Event Loop 的理解 Timers,process.nextTick()
    Ajax关于readyState(状态值)和status(状态码)的研究
    原生 JavaScript 实现 AJAX、JSONP
    Python selenium.webdriver.chrome.options.Options() Examples
    【python】统一转换日期格式dateutil.parser.parse
    python读取doc
    大规模爬虫流程总结
    如何巧妙的利用selenium和requests组合来进行操作需要登录的页面
    使用pandas进行数据清洗
    twilio打电话和发短信
  • 原文地址:https://www.cnblogs.com/bugong/p/4318372.html
Copyright © 2020-2023  润新知