python正则元字符的含义

　　练习的时候使用linux+ipython，ipython安装

python的元字符

# 元字符：
# . ^ $ * + ? {} [] | ()

注：w还可以匹配下划线和汉字

[abd]表示只要匹配该集合中的任一一个表达式都OK

注意并不是按照集合的顺序来匹配的。而是返回第一个符合条件的字符串

注：^$匹配的是行首和行尾， A匹配的是字符串的首尾【没整没明白】

*？ +? ??

首先明确一点，他们必须结合左右的正则进行匹配，左边必须有内容，右边可以没有，即为''

?? =（匹配字符1？）？匹配字符2，字符1{0,1}+字符2，字符1出现次数<=1，字符2出现次数>=1

In [149]: re.match(r'w??d','123wer123')　　# 第一个d即数字之前，w匹配最少可以一次都不匹配，返回第一个数字
Out[149]: <re.Match object; span=(0, 1), match='1'>

In [150]: re.match(r'w??d','w123wer123')　　# 第一个d数字之前，w最少可以只匹配一次，返回一个字母+第一个数字
Out[150]: <re.Match object; span=(0, 2), match='w1'>　　

In [151]: re.match(r'w??d','wx123wer123')　　# 第一个d数字之前，w最少会匹配超过一次，最终匹配失败，返回None

In [152]: re.match(r'w??d','wxwer')  #d没匹配到，所以最终匹配失败，返回None

In [153]: re.match(r'w??','wxwer')　　#　在第一个''之前，w最少可以只匹配0次，最多匹配1次, 非贪婪模式选择最少匹配次数，w匹配0次，所以返回''
Out[153]: <re.Match object; span=(0, 0), match=''>

*? = 其实可以拆分看字符1*?字符2，相当于（字符1*）？字符2，字符1{0,}+第一个字符2, 字符1次数>=0，字符2出现次数>=1

In [154]: re.match(r'w*?d','123wer123') # w匹配0次，返回第一个数字
Out[154]: <re.Match object; span=(0, 1), match='1'>

In [155]: re.match(r'w*?d','wx123wer123')　　# w匹配2次， 返回2个字母+一个数字
Out[155]: <re.Match object; span=(0, 3), match='wx1'>

In [156]: re.match(r'w*?d','wxe')　　# d没有匹配项，最终匹配失败，返回None

In [157]: re.match(r'w*?','wxe')　　# 遇到第一个''之前w可以最多匹配三个，最少可以一次都不匹配，非贪婪模式按w匹配次数最少的来, w匹配0次，最终返回''
Out[157]: <re.Match object; span=(0, 0), match=''>

+？=（字符1+）？字符2，字符1{1,}+第一个字符2，字符1出现次数>=1，字符2出现次数>=1

In [160]: re.match(r'w+?d','%123wer123')　　# w匹配0次，最终匹配失败，返回None

In [161]: re.match(r'w+?d','wsx123wer123')　　#w匹配3次，最后返回三个字母+第一个数字
Out[161]: <re.Match object; span=(0, 4), match='wsx1'>

In [162]: re.match(r'w+?d','wsxwer')　　# d匹配0次，最终匹配失败，返回None

In [163]: re.match(r'w+?','wsxwer')　　# 遇到第一个''之前，w在这里最多可以匹配6次，最好必须匹配一次，非贪婪模式就是按最少的次数来，所以返回第一个字母+'',即第一个字母
Out[163]: <re.Match object; span=(0, 1), match='w'>

In [165]: re.match(r'w+?w','wsxwer')　　# 注意返回的是ws而不是wsxwe，w+表示w可以出现1到多次，ws中w只匹配一次，wsxwe却匹配了2次，非贪婪模式就是捡w匹配次数最少的来，所以返回ws
Out[165]: <re.Match object; span=(0, 2), match='ws'>

看如下示例应该能更好的理解