• 正则表达式


    正则表达式

    以前我们用grep在一个文件中找出包含某些字符串的行,比如在头文件中找出一个宏定义。其实grep还可以找出符合某个模式(Pattern)的一类字符串

    例如找出所有符合xxxxx@xxxx.xxx模式的字符串(也就是email地址),要求x字符可以是字母、数字、下划线、小数点或减号,email地址的每一部分可以有一个或多个x字符,

    例如abc.d@ef.com、1_2@987-6.54,当然符合这个模式的不全是合法的email地址,但至少可以做一次初步筛选,筛掉a.b、c@d等肯定不是email地址的字符串。

    再比如,找出所有符合yyy.yyy.yyy.yyy模式的字符串(也就是IP地址),要求y是0-9的数字,IP地址的每一部分可以有1-3个y字符。

    如果要用grep查找一个模式,如何表示这个模式,这一类字符串,而不是一个特定的字符串呢?

    从这两个简单的例子可以看出,要表示一个模式至少应该包含以下信息:

    字符类(Character Class):如上例的x和y,它们在模式中表示一个字符,但是取值范围是一类字符中的任意一个

    数量限定符(Quantifier): 邮件地址的每一部分可以有一个或多个x字符,IP地址的每一部分可以有1-3个y字符各种字符类以及普通字符之间的位置关系:

    例如邮件地址分三部分, 用普通字符@和.隔开,IP地址分四部分,用.隔开,每一部分都可以用字符类和数量限定符描述。为了表示位置关系,

    还有位置限定符(Anchor)的概念,将在下面介绍。规定一些特殊语法表示字符类、数量限定符和位置关系,然后用这些特殊语法和普通字符一起表示一个模式,

    这就是正则表达式(Regular Expression)。例如email地址的正则表达式可以写成 [a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+.[a-zA-Z0-9_.-]+

    IP地址的正则表达式可以写成 [0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}

    我们先看看正则表达式在grep中怎么用。例如有这样一个文本文件testfile:

    192.168.1.1
    1234.234.04.5678
    123.4234.045.678
    abcde

    查找其中包含IP地址的行:
    $ egrep '[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}' testfile

    192.168.1.1
    1234.234.04.5678

    egrep相当于grep -E,表示采用Extended正则表达式语法。grep的正则表达式有Basic和Extended两种规范。

    另外还有fgrep命令,相当于grep-F,表示只搜索固定字符串而不搜索正则表达式模式不会按正则表达式的语法解释后面的参数

    注意正则表达式参数用单引号括起来了因为正则表达式中用到的很多特殊字符在Shell中也有特殊含义(例如),

    只有用单引号括起来才能保证这些字符原封不动地传给grep命令,而不会被Shell解释掉

    192.168.1.1符合上述模式,由三个.隔开的四段组成,每段都是1到3个数字,所以这一行被找出来了,可为什么1234.234.04.5678也被找出来了呢?

    因为grep找的是包含某一模式的行,这一行包含一个符合模式的字符串234.234.04.567。相反,123.4234.045.678这一行不包含符合模式的字符串,所以不会被找出来。

    grep是一种查找过滤工具,正则表达式在grep中用来查找符合模式的字符串。其实正则表达式还有一个重要的应用是验证用户输入是否合法,

    例如用户通过网页表单提交自己的email地址,就需要用程序验证一下是不是合法的email地址,这个工作可以在网页的Javascript中做,

    也可以在网站后台的程序中做,例如PHP‘Perl、Python、Ruby、Java或C,所有这些语言都支持正则表达式,

    可以说,目前不支持正则表达式的编程语言实在很少见。除了编程语言之外,很多UNIX命令和工具也都支持正则表达式,例如grep、vi、sed、awk、emacs等等。

    “正则表达式”就像“变量”一样,它是一个广泛的概念,而不是某一种工具或编程语言的特性。

    基本语法

    我们知道C的变量和Shell脚本变量的定义和使用方法很不相同,表达能力也不相同,C的变量有各种类型,而Shell脚本变量都是字符串

    同样道理,各种工具和编程语言所使用的正则表达式规范的语法并不相同,表达能力也各不相同,

    有的正则表达式规范引入很多扩展,能表达更复杂的模式,但各种正则表达式规范的基本概念都是相通的。

    egrep(1)所使用的正则表达式,它大致上符合POSIX正则表达式规范,详见regex(7)(看这个man page对你的英文绝对是很好的锻炼)。

    希望读者仿照上一节的例子,一边学习语法,一边用egrep命令做实验。

    字符类

    字符       含义                                举例

     .      匹配任意一个字符                          abc.可以匹配abcd、abc9等

     []     匹配括号中的任意一个字符                      [abc]d可以匹配ad、bd或cd

     -      在[]括号内表示字符范围                       [0-9a-fA-F]可以匹配一位十六进制数字

     ^     位于[]括号内的开头,匹配除括号中的字符之外的任意一个字符      [^xy]匹配除xy之外的任一字符,因此[^xy]1可以匹配a1、b1但不匹配x1、y1

    [[:xxx:]]   grep工具预定义的一些命名字符类                  [[:alpha:]]匹配一个字母,[[:digit:]]匹配一个数字

    数量限定符

    字符       含义                     举例
    ?     紧跟在它前面的单元应匹配零次或一次     [0-9]?.[0-9]匹配0.02.3、.5等,由于.在正则表达式中是一个特殊字符,所以需要用转义一下,取字面值
    +     紧跟在它前面的单元应匹配一次或多次     [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+.[a-zA-Z0-9_.-]+匹配email地址
    *     紧跟在它前面的单元应匹配零次或多次     [0-9][0-9]*匹配至少一位数字,等价于[0-9]+,[a-zA-Z_]+[azA-Z_0-9]*匹配C语言的标识符
    {N}    紧跟在它前面的单元应精确匹配N次       [1-9][0-9]{2}匹配从100到999的整数
    {N,}   紧跟在它前面的单元应匹配至少N次       [1-9][0-9]{2,}匹配三位以上(含三位)的整数
    {,M}   紧跟在它前面的单元应匹配最多M次       [0-9]{,1}相当于[0-9]?
    {N,M}   紧跟在它前面的单元应匹配至少N次,最多M次   [0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}匹配IP地址

    再次注意grep找的是包含某一模式的行,而不是完全匹配某一模式的行。再举个例子,如果文本文件的内容是

    aaabc
    aad
    efg

    查找a*这个模式的结果是三行都被找出来了

    $ egrep 'a*' testfile
    aabc
    aad
    efg

    a匹配0个或多个a,而第三行包含0个a,所以也包含了这一模式。单独用a这样的正则表达式做查找没什么意义,一般是把a*作为正则表达式的一部分来用。

    位置限定符

    字符       含义                 举例
    ^     匹配行首的位置         ^Content匹配位于一行开头的Content
    $     匹配行末的位置         ;$匹配位于一行结尾的;号,^$匹配空行
    <     匹配单词开头的位置       <th匹配... this,但不匹配ethernet、tenth
    >     匹配单词结尾的位置       p>匹配leap ...,但不匹配parent、sleepy
         匹配单词开头或结尾的位置    at匹配... at ...,但不匹配cat、atexit、batch
    B     匹配非单词开头和结尾的位置   BatB匹配battery,但不匹配... attend、hat ...

        

    含义 举例
    匹配行首的位置 ^Content匹配位于一行开头的Content
    匹配行末的位置 ;$匹配位于一行结尾的;号,^$匹配空行
    匹配单词开头的位置 <th匹配... this,但不匹配ethernet、tenth
    匹配单词结尾的位置 p>匹配leap ...,但不匹配parent、sleepy
    匹配单词开头或结尾的位置 at匹配... at ...,但不匹配cat、atexit、batch
    匹配非单词开头和结尾的位置 BatB匹配battery,但不匹配... attend、hat ...

    位置限定符可以帮助grep更准确地查找,例如上一节我们用[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}查找IP地址,找到这两行
    192.168.1.1
    1234.234.04.5678

    如果用^[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}$查找,就可以把1234.234.04.5678这一行过滤掉了。

    特殊字符

    所以需要用转义一下,取字面值 + 紧跟在它前面的单元应匹配一次或多次 [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+.[a-zA-Z0-9_.-]+匹配email地址

    其它特殊字符

    字符         含义                         举例

       转义字符,普通字符转义为特殊字符,特殊字符转义为普通字符   普通字符<写成<表示单词开头的位置,特殊字符.写成.以及写成\就当作普通字符来匹配

    ()     将正则表达式的一部分括起来组成一个单元,          可以对整个单元使用数量限定符 ([0-9]{1,3}.){3}[0-9]{1,3}匹配IP地址

    |      连接两个子表达式,表示或的关系                 n(o|either)匹配no或neither

    以上介绍的是grep正则表达式的Extended规范,Basic规范也有这些语法,只是字符?+{}|()应解释为普通字符,要表示上述特殊含义则需要加转

    如果用grep而不是egrep,并且不加-E参数,则应该遵照Basic规范来写正则表达式。
     

  • 相关阅读:
    8天学通MongoDB——第五天 主从复制
    5天不再惧怕多线程——第五天 线程池
    8天玩转并行开发——第四天 同步机制(上)
    8天学通MongoDB——第八天 驱动实践
    8天玩转并行开发——第三天 plinq的使用
    8天玩转并行开发——第一天 Parallel的使用
    8天玩转并行开发——第五天 同步机制(下)
    5天不再惧怕多线程——第一天 尝试Thread
    虚函数、纯虚函数详解
    libevent 笔记
  • 原文地址:https://www.cnblogs.com/xiangtingshen/p/10927020.html
Copyright © 2020-2023  润新知