正则表达式(regular expression)
re
Python对正则匹配的库是
re
,re是基于Perl所用的正则表达式,并有 一定的改进.
正则本质就是搜索所需的文本,正则里面有三种搜索方式
- 第一种是知道文本内容直接使用普通字符搜索出来,比如要从
abcdefg
中搜到cd
- 第二种就是模糊查询,比如我想从英文中找一个数字,一般借助特殊符号(
.+*?
)或者转义符号(wd
等) - 第三种就是结合前两种,比如我记得一个单词的前两个字母想把那个单词搜出来.
这里不介绍正则基本知识,你想知道可以点这里
ps: 由于在python里面也是用反斜杠做转义字符,所以比如\
和这两个特殊字符必须用
\\
和\b
来代替.但是python提供了一个元字符支持re模块,只要字符前面加上r比如r' regex '
就能不关闭python的转义.
正则里面我觉得很重要的一个概念就是组概念,当我们的文本比较复杂的时候将其分成多个小组是利于我们正则的后期维护和改进
正则里面使用一个括号来表示组比如
(a)(b)
就分成了两个组
re函数里面search
和finall
都支持组查询,而且findall
方法假如里面有组分布会只显示组成员.
re库支持搜索选项,这几个选项对于正则有时候非常有用
DOTALL [简S]-------------允许点字符匹配换行符
IGNORECASE [简I] --------忽悠大小写
LOCALE [简L] ----------支持本地化字符
MULTILINE [简M] ---------多行,每行都支持锚点
UNICODE [简U] ----------支持Unicode,w也可以是Unicode了
VERBOSE [简X] --------------神器,会无视代码中的注释空格和换行
我们也可以在正则的组里面使用这些搜索选项,只要用上面的简称的小写比如(?is)
就可以在组里面使用这些规则.
正则里面还有一些比较有趣的函数,同string里面的translate函数,sub函数可以替换找到的变量 bold = re.compile(r'*{2}(.*?)*{2}') bold.sub(r'1', 'this foo and ok')
1
代表第一组变量也就是foo和ok 输出为'this <b>foo</b> and <b>ok</b>'
我们使用成功用加粗了foo和ok,同translate
不同这个方法不需要知道要替换的是什么.
正则的断言
我们可以使用一些特殊的符号来执行一些程序判断选择,比如说判断是否特殊字符,如果有 的话就不匹配,这就是断言
断言有两种一种是前向,一种是后向
前向是指判断语句在前面,这种就相当于一个if语句,而后向是匹配后判断,由于已经匹配好了文字所以 匹配的字符必须是固定长度的(不能使用*.?).
前向就是在判断后面匹配的表达式必须与规定相同,比如一个邮箱地址我们要匹配可以用<>包起来的,但是不匹配只要一个的我们就可以在前面加上这个^(?=(<.*>$)|([^<].*[^>]$))
通过使用?=
来断言后面必须是用<>包起来或者没有<>,我们使用前向断言可以通过正则直接过滤掉不符合的(当然你可以用多个简单正则来做但是效率没有这个高),还有否定前向就是通过?!
来声明. 相对应后向断言就是很简单了,直接在匹配后面使用一个?<=
(肯定后向)或?<!
(否定后向),不过要注意这个是判断前面匹配是否满足的.
断言只是限定我们想选的文本的范围,他并不会被选择. 断言的一个有趣的应用就是选择字符间的空格,我们知道python其实假设每个字符间都一个空格(这就是我们有时候会选出一些空字符出来的原因),这个空格不是我们自己打上去的.
举个例子
两个字符串a1
和a 1
,第一个我们称为A,第二个我们称他为B,假如我们想把数字和字母分出来,对于B来说,很简单因为数字和字母之间有一个空格,我们可以直接使用字符自带的split
就行,但是对于A来说,就不那么简单了.
字母a和数字1中间没有字符,我们必须把字母和数字之间的"空格"给选择出来,这时候就可以用到断言了.
r = re.compile(r'(?<=[a-z])(?=d)')
这个r
就可以字母和数字直接的隐形空格给选择出来了
遗憾的是由于python的正则并不把隐形的空格当做字符,所以我们不能简单的使用正则的r.split
方法(选择字符分割)直接将字符串分解开.
我们就得写几步
第一先把空格换成 $$$(或其他)
>>> s = r.sub('$$$', 'a1')
>>> print(s)
'a$$$1'
然后在分割
>>> s.split('$$$')
>>> ['a', '1']
成功分割好了,当然这个只能处理字母在前数字在后的"隐形空格",只要加一个"|"
在把前向改成后向,后向改成前向就可以选择任意字母和数字直接的"隐形空格"了.
正则的变量
我们可以使用?P来声明一个组(用括号,当然其实我们每使用一个括号re自动帮我们将组取一个 名,依次从1-n
有时候我们可以要求上面的匹配组,下面也要相应匹配组,我们就可以通过两种方法来引用这个变量,假如你没有使用<?P<name>
来声明组你只能通过
来引用,n是这个变量的序号,第二种是通过(?P=name)
来引用这个变量,name为你自己定义的组的名字
re还提供了一种机制来让你修正你的正则,简单来说就是能判断一个组存不存在来约束匹配,语法为
(?(id)yes-expression|no-expression)
id为组的编号或者name.