一. 什么是正则表达式
1. 定义: 即文本的高级匹配模式,提供搜索,替换等功能.
其本质是一系列由字符和特殊符号构成的字串,这个字串即正则表达式.
2. 匹配原理: 通过普通字符和有特定含义的字符,来组成字符串,用以描述一定的字符串规则.比如重复,位置等,来表达一种特定类型的字符串.
二. 为什么要学正则表达式
1. 文本处理已经成为计算机常见工作之一;
2. 对文本内容搜索,定位,提取是逻辑比较复杂的工作;
3. 为了快速方便的解决上述问题,产生了正则表达式技术.
三. 正则表达式元字符的使用
1. 普通字符
匹配规则: 每个普通字符匹配其对应的字符(以整体为单元)
d
可以匹配一个数字
w
可以匹配一个字母或数字
.
可以匹配任意字符
s
可以匹配一个空格(也包括Tab等空白符)
s+
表示至少有一个空格
要匹配变长的字符:
*
表示任意个字符(包括0个)
+
表示至少一个字符
?
表示0个或1个字符
{n}
表示n个字符
{n,m}
表示n-m个字符
要做更精确地匹配,可以用[]
表示范围:
[0-9a-zA-Z\_]
可以匹配一个数字、字母或者下划线
[0-9a-zA-Z\_]+
可以匹配至少由一个数字、字母或者下划线组成的字符串
[a-zA-Z\_][0-9a-zA-Z\_]*
可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}
更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)
A|B
可以匹配A或B,所以(P|p)ython
可以匹配'Python'
或者'python'
^
表示行的开头,^d
表示必须以数字开头
$
表示行的结束,d$
表示必须以数字结束
^py$
变成了整行匹配,就只能匹配'py'
2. re模块
Python提供re模块,包含所有正则表达式的功能.因Python的字符串本身也用 转义,所以在写正则表达式时应特别注意.
s = 'ABC\-001' --> s = 'ABC-001'
强烈建议使用Python的 r 前缀,就不用考虑转义的问题
s = r'ABC-001' --> s = 'ABC-001'
3. 判断正则表达式是否匹配
1 >>> import re 2 >>> re.match(r'^d{3}-d{3,8}$', '010-12345') 3 <_sre.SRE_Match object; span=(0, 9), match='010-12345'> 4 >>> re.match(r'^d{3}-d{3,8}$', '010 12345') 5 >>>
match()
方法判断是否匹配,如果匹配成功,返回一个match
对象,否则返回None.
常见的判断方法:
1 test = '用户输入的字符串' 2 if re.match(r'正则表达式', test): 3 print('ok') 4 else: 5 print('failed')
4. 切分字符串
1 #用正则表达式切分字符串比用固定的字符更灵活 2 >>> 'a b c'.split(' ') 3 ['a', 'b', '', '', 'c'] 4 #无法识别连续的空格,用正则表达式试试 5 >>> re.split(r's+', 'a b c') 6 ['a', 'b', 'c'] 7 #无论多少个空格都可以正常分割。加入,试试: 8 >>> re.split(r'[s\,]+', 'a,b, c d') 9 ['a', 'b', 'c', 'd'] 10 #再加入;试试 11 >>> re.split(r'[s\,;]+', 'a,b;; c d') 12 ['a', 'b', 'c', 'd']
5. 分组
除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能.用()
表示的就是要提取的分组(Group).
1 #^(d{3})-(d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码: 2 >>> m = re.match(r'^(d{3})-(d{3,8})$', '010-12345') 3 >>> m 4 <_sre.SRE_Match object; span=(0, 9), match='010-12345'> 5 >>> m.group(0) 6 '010-12345' 7 >>> m.group(1) 8 '010' 9 >>> m.group(2) 10 '12345'
如果正则表达式中定义了组,就可以在Match
对象上用group()
方法提取出子串来.group(0)
永远是原始字符串,group(1)
、group(2)
……表示第1、2、……个子串.
1 >>> t = '19:05:30' 2 >>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9]):(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9]):(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t) 3 >>> m.groups() 4 ('19', '05', '30')
6. 贪婪匹配
正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符.
1 #匹配出数字后面的0: 2 >>> re.match(r'^(d+)(0*)$', '102300').groups() 3 ('102300', '') 4 #由于d+采用贪婪匹配,直接把后面的0全部匹配了,结果0*只能匹配空字符串了. 5 #必须让d+采用非贪婪匹配(也就是尽可能少匹配),才能把后面的0匹配出来,加个?就可以让d+采用非贪婪匹配: 6 >>> re.match(r'^(d+?)(0*)$', '102300').groups() 7 ('1023', '00')
7. 编译
当我们在Python中使用正则表达式时,re模块内部会干两件事情:
* 编译正则表达式,如果正则表达式的字符串本身不合法,会报错;
* 用编译后的正则表达式去匹配字符串.
如果一个正则表达式要重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式,接下来重复使用时就不需要编译这个步骤了,直接匹配:
1 >>> import re 2 # 编译: 3 >>> re_telephone = re.compile(r'^(d{3})-(d{3,8})$') 4 # 使用: 5 >>> re_telephone.match('010-12345').groups() 6 ('010', '12345') 7 >>> re_telephone.match('010-8086').groups() 8 ('010', '8086') 9 # 编译后生成Regular Expression对象,由于该对象自己包含了正则表达式,所以调用对应的方法时不用给出正则字符串.
四. 待补充