re模块
就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。
字符匹配(普通字符,元字符):
1 普通字符:大多数字符和字母都会和自身匹配
>>> re.findall('alvin','yuanaleSxalexwupeiqi')
['alvin']
2 元字符:. ^ $ * + ? { } [ ] | ( )
元字符
. ^ $
import re
ret1=re.findall('李.','李爽
alex
李四
egon
alvin
李二')
ret2=re.findall('^李.','李爽
alex
李四
egon
alvin
李二')
ret3=re.findall('李.$','李爽
alex
李四
egon
alvin
李二')
* + ? { }
import re
ret1=re.findall('李.*','李杰
alex
李莲英
egon
alvin
李二棍子')
ret2=re.findall('李.+','李杰
alex
李莲英
egon
alvin
李二棍子')
ret3=re.findall('(李.{1,2})
','李杰
alex
李莲英
egon
alvin
李二棍子') # 设定优先级的原因
# 匹配一个数字包括整型和浮点型
ret4=re.findall('d+.?d*','12.45,34,0.05,109')
print(ret4)
注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配
ret=re.findall('131d+?','1312312312') print(ret) ['1312']
转义符
1、反斜杠后边跟元字符去除特殊功能,比如.
2、反斜杠后边跟普通字符实现特殊功能,比如d
d 匹配任何十进制数; 它相当于类 [0-9]。
D 匹配任何非数字字符; 它相当于类 [^0-9]。
s 匹配任何空白字符; 它相当于类 [
fv]。
S 匹配任何非空白字符; 它相当于类 [^
fv]。
w 匹配任何字母数字字符; 它相当于类 [a-zA-Z0-9_]。
W 匹配任何非字母数字字符; 它相当于类 [^a-zA-Z0-9_]
匹配一个特殊字符边界,比如空格 ,&,#等
让我们看一下的应用:
ret=re.findall(r'I','I am LIST')
print(ret)#['I']
接下来我们试着匹配下“abcle”中的‘cl’:
import re
ret=re.findall('cl','abcle')
print(ret)#[]
ret=re.findall('c\l','abcle')
print(ret)#[]
ret=re.findall('c\\l','abcle')
print(ret)#[]
ret=re.findall(r'c\l','abcle')
print(ret)#[]
# 是特殊符号所以,'abce'前面需要加r
ret=re.findall(r'c\b',r'abce')
print(ret)#[]
分组 ()
m = re.findall(r'(ad)+', 'add')
print(m)
ret=re.search('(?P<id>d{2})/(?P<name>w{3})','23/com')
print(ret.group())#23/com
print(ret.group('id'))#23
元字符之|
ret=re.search('(ab)|d','rabhdg8sd')
print(ret.group())#ab
字符集[]
#--------------------------------------------字符集[]
ret=re.findall('a[bc]d','acd')
print(ret)#['acd']
ret=re.findall('[a-z]','acd')
print(ret)#['a', 'c', 'd']
ret=re.findall('[.*+]','a.cd+')
print(ret)#['.', '+']
#在字符集里有功能的符号: - ^
ret=re.findall('[1-9]','45dha3')
print(ret)#['4', '5', '3']
ret=re.findall('[^ab]','45bdha3')
print(ret)#['4', '5', 'd', 'h', '3']
ret=re.findall('[d]','45bdha3')
print(ret)#['4', '5', '3']