### 正则表达式定义和作用 ``` #正则表达式是什么? 它是约束字符串匹配某种形式的规则 #正则表达式有什么用? 1.检测某个字符串是否符合规则.比如:判断手机号,身份证号是否合法 2.提取网页字符串中想要的数据.比如:爬虫中,提取网站天气,信息,股票代码,星座运势等具体关键字 #在线测试工具 http://tool.chinaz.com/regex/ ``` ### 正则表达式所包含的元素种类 ``` #正则表达式由一些 [普通字符] 和一些 [元字符] 组成: (1)普通字符包括大小写字母和数字 (2)元字符具有特殊含义,大体种类分为如下: 1.预定义字符集,字符组 2.量词 3.边界符 4.分组 ``` #### (一) 匹配单个字符 => [元字符] 预定义字符集 | 预定义字符集 | 匹配内容 | | ------------ | ------------------------------------------------------ | | . | 匹配任意字符,除了换行符 | | d | 匹配数字 | | D | 匹配非数字 | | w | 匹配字母或数字或下划线 (正则函数中,支持中文的匹配) | | W | 匹配非字母或数字或下划线 | | s | 匹配任意的空白符 | | S | 匹配任意非空白符 | | | 匹配一个换行符 | | | 匹配一个制表符 | | [] | 匹配中括号内列举的字符 | | 字符组格式 | 说明 [默认必须从字符组中选一个] | | ---------- | --------------------------------------- | | [...] | 匹配字符组中的字符 | | [^...] | 匹配除了字符组内所有内容,之外的所有字符 | | 字符组内容 | 待匹配字符 | 匹配结果 | 说明 | | ------------ | ---------- | -------- | ----------------------------------------------------- | | [0123456789] | 8 | True | 字符组里枚举的各种字符,必须满足一个,否则返回假,不匹配 | | [abcdefg] | 9 | False | 由于字符组中没有"9"字符,所以不匹配 | | [0-9] | 7 | True | 可用 - 表示范围,[0-9] 和 [0123456789]是一个意思 | | [a-z] | s | True | [a-z]匹配所有的小写字母 | | [A-Z] | B | True | [A-Z]就表示所有的大写字母 | | [0-9a-fA-F] | e | True | 可以匹配数字,大小写形式的a-f. 该正则可验证十六进制 | #### (二) 匹配多个字符 => [元字符] 量词符号 | 量词 | 用法说明 | | ---------- | ------------------------- | | ? | 重复0次或1次 | | + | 重复1次或多次 (至少1次) | | * | 重复0次或多次 (任意次) | | {n} | 重复n次 | | {n,} | 重复n次或更多次 (至少n次) | | {n,m} | 重复n到m次 | | .* .+ | 贪婪模式匹配 | | .*? .+? | 非贪婪模式匹配 | ``` # 贪婪匹配: 默认向更多次数匹配 (底层用的是回溯算法) # 非贪婪匹配: 默认向更少次数匹配 (量词的后面加?号) (1)量词( * ? + {} )加上问号?表示非贪婪 惰性匹配 (2)例:.*?w 表示匹配任意长度任意字符遇到一个w就立即停止 ``` #### (三) 匹配开头结尾 => [元字符] 边界符号 | 边界符 | 说明 | | :----- | ------------------ | | | 匹配一个字符的边界 | | ^ | 匹配字符串的开始 | | $ | 匹配字符串的结尾 | #### (四) 匹配分组 => [元字符] 分组符号 | 分组 | 用法说明 | | ---------- | ------------------------------------------------------------ | | a|b | 匹配字符a 或 字符b (如果两个当中有重合部分,把更长的那个放前面) | | (ab) | 匹配括号内的表达式 ,将()作为一个分组 | | um | 引用分组num匹配到的字符串 | | (?P<name>) | 给分组命名 | | (?P=name) | 引用别名: 把name分组所匹配到的内容引用到这里 | ``` # ###分组 # 1.正常分组 () 1) 正常情况下用()圆括号进行分组 可以用1 反向引用第一个圆括号匹配的内容。 2) (?:正则表达式) 表示取消优先显示的功能 (正则表达式) 代表分组 findall 把所有分组的内容显示到列表里 (?:正则表达式) 代表分组 findall 把所有分组的内容不显示到列表里 # 2.命名分组 3) (?P<组名>正则表达式) 给这个组起一个名字 4) (?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置 ``` #### (五) 正则表达式修饰符 | 常用修饰符 | 说明 | | ---------- | --------------------------------------------- | | re.I | 使匹配对大小写不敏感 | | re.M | 使每一行都能够单独匹配(多行匹配),影响 ^ 和 $ | | re.S | 使 . 匹配包括换行在内的所有字符 | ### 正则相关函数 ``` findall 匹配字符串中相应内容,返回列表 [用法: findall("正则表达式","要匹配的字符串")] search 通过正则匹配出第一个对象返回,通过group取出对象中的值 match 验证用户输入内容 split 切割 sub 替换 subn 替换 finditer 匹配字符串中相应内容,返回迭代器 compile 指定一个统一的匹配规则 ``` ### 练习 ``` # 字符组练习 # print(re.findall('a[abc]b','aab abb acb adb')) # print(re.findall('a[0123456789]b','a1b a2b a3b acb ayb')) # print(re.findall('a[abcdefg]b','a1b a2b a3b acb ayb adb')) # print(re.findall('a[ABCDEFG]b','a1b a2b a3b aAb aDb aYb')) # print(re.findall('a[0-9a-zA-Z]b','a-b aab aAb aWb aqba1b')) # print(re.findall('a[0-9][*#/]b','a1/b a2b a29b a56b a456b')) # print(re.findall('a[^-+*/]b',"a%b ccaa*bda&bd")) # 量词练习 '''1) ? 匹配0个或者1个a ''' print(re.findall('a?b','abbzab abb aab')) '''2) + 匹配1个或者多个a ''' print(re.findall('a+b','b ab aaaaaab abb')) '''3) * 匹配0个或者多个a ''' print(re.findall('a*b','b ab aaaaaab abbbbbbb')) '''4) {m,n} 匹配m个至n个a ''' print(re.findall('a{1,3}b','aaab ab aab abbb aaz aabb')) # 贪婪匹配 与 非贪婪匹配 [语法:量词的后面加?号] print(re.findall('a.*b','aab ab aaaaab a!!!@#$bz')) print(re.findall('a.*?b','aab ab aaaaab a!!!@#$bz')) # # 边界符练习 ^ $ strvar = "大哥大嫂大爷" print(re.findall('大.',strvar)) print(re.findall('^大.',strvar)) print(re.findall('大.$',strvar)) print(re.findall('^大.$',strvar)) print(re.findall('^大.*?$',strvar)) print(re.findall('^大.*?大$',strvar)) print(re.findall('^大.*?爷$',strvar)) print(re.findall('^g.*? ' , 'giveme 1gfive gay')) print(re.findall('five$' , 'aassfive')) print(re.findall('^giveme$' , 'giveme')) # print(re.findall('^giveme$' , 'giveme giveme')) # print(re.findall('giveme' , 'giveme giveme')) # print(re.findall("^g.*e",'giveme 1gfive gay')) # 分组练习(用圆括号) print(re.findall('.*?_good','wusir_good alex_good secret男_good')) print(re.findall('(.*?)_good','wusir_good alex_good secret男_good')) print(re.findall('(?:.*?)_good','wusir_good alex_good secret男_good')) # | 代表或 , a|b 匹配字符a 或者 匹配字符b . 把字符串长的写在前面,字符串短的写在后面 # 匹配小数 # 匹配小数和整数 # 匹配135或171的手机号 # 匹配www.baidu.com 或者 www.oldboy.com # "5*6-7/3" 匹配 5*6 或者 7/3 ```