re模块: 正则表达式

什么是正则:

正则就是用一些具有特殊含义的符号组合到一起（称为正则表达式）来描述字符或者字符串的方法.或者说：正则就是用来描述一类事物的规则.（在Python中）它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行

元字符	匹配内容
w	匹配字母（包含中文）或数字或下划线
W	匹配非字母（包含中文）或数字或下划线
s	匹配任意的空白符
S	匹配任意非空白符
d	匹配数字
D	匹配非数字
A 与 ^	从字符串开头匹配
与 $	从字符串结尾开始匹配
	匹配一个换行符
	匹配一个制表符
.	匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中的字符的所有字符
*	匹配0个或者多个左边的字符。
+	匹配一个或者多个左边的字符。
？	匹配0个或者1个左边的字符，非贪婪方式。
{n}	精准匹配n个前面的表达式。
{n,m}	匹配n到m次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或者b。
()	匹配括号内的表达式，也表示一个组

匹配模式举例:

import re
re.findall()
----------------------------------------------------
# 单个字符的匹配

# W 与 w
s = '原始tz 12*() _'
print(re.findall('w', s))  # w 数字,字母,下划线,中文
print(re.findall('W', s))  # W 除了数字,字母,下划线,中文以外的

# s 与 S
print(re.findall('s', '原始tz*(_ 	 
'))  # s 空格,	,

print(re.findall('S', '原始tz*(_ 	 
'))  # S 除空格,	,
以外的

# d 与 D
print(re.findall('d','1234567890 yuanshi *（_')) # d 数字
print(re.findall('D','1234567890 yuanshi *（_')) # D 非数字

# A 与 ^
print(re.findall('Ahello', 'hello hello 原始 hell')) # 从开
print(re.findall('^hello', 'hello hello 原始 hell')) # 从开头开始匹配头开始匹配

#  与 $  从结尾开始匹配
print(re.findall('hell$', 'hello hello 原始 hell'))

# 
 与 	
print(re.findall('	',  'hello hello 原始 	hell'))  # 	
print(re.findall('
',  'hello hello 原始 
hell'))  # 


----------------------------------------------------
# 元字符匹配

# .  ?  *  +  {m,n}  .*   ,*?
# .匹配任意字符:   如果匹配成功,光标则移到匹配成功的最后的字符;如果匹配未成功,则光标向下移动一位继续匹配
print(re.findall('a.b', 'ab aab abb aaaab'))

# ? 匹配0个或者1个由左边字符定义的片段
print(re.findall('a?b', 'ab aab abb aaaab'))

# * 匹配0个或者多个由左边字符定义的片段: 满足贪婪匹配
print(re.findall('a*b', 'ab aab abb aaaab'))

# + 匹配1个或者多个由左边字符定义的片段: 满足贪婪匹配
print(re.findall('a+b', 'ab aab abb aaaab'))

# {m,n} 匹配m个至n个(包括m和n)由左边字符定义的片段
print(re.findall('a{1,5}b', 'ab aab abb aaaaab aaaaaab'))

# .* : 贪婪匹配 从头到尾
print(re.findall('a.*b', 'ab aab abb aa#aaab aaaaaab'))

# .*? 此时的?不是对左边的字符进行0次或者1次的匹配,
# 而只是针对.*这种贪婪匹配的模式进行一种限定:告知他要遵从非贪婪匹配
print(re.findall('a.*?b', 'ab aab abb aa#aaab aaaaaab'))

# []: 一个中括号可以代表一个字符
print(re.findall('a[abc]b', 'aab abb acb afb a_b'))  # [abc]中任意一个都可以
print(re.findall('a[abc][bd]b', 'aabb aaabc abd acdbb')) # =>['aabb', 'acdb']
# - : 在[]中表示范围
print(re.findall('a[0-9]b', 'a1b a2bc abd acdbb'))  # =>['a1b', 'a2b']
print(re.findall('a[A-Z]b', 'aAb a2bc abd acdbb'))  # =>['aAb']
print(re.findall('a[A-Za-z]b', 'aAb aabc abd acdbb')) # =>['aAb', 'aab']
print(re.findall('a[-*$]b', 'a-b a*bc abd acdbb')) # =>['a-b', 'a*b']
# 当想匹配 - 时,要把 - 放在最前面或最后面
# ^ : 在[]最前面表示取反
print(re.findall('a[^0-9]b', 'a1b a2bc abbd acdbb')) # =>['abb']

s = 'xiaowang_sb xiaoliu_sb wanglu_sb tianzun_sb 通天教主_nb'
print(re.findall('w+_sb', s))


# (): 分组
s = 'xiaowang_sb xiaoliu_sb wanglu_sb tianzun_sb 通天教主_nb'
print(re.findall('(w+)_sb', s)) # =>['xiaowang', 'xiaoliu', 'wanglu', 'tianzun'],返回()内的内容


# |: 匹配左边或右边
print(re.findall('xiao|da|tian', 'xiaoasdnfisdaiasdntian'))

# 在()分组里面加了?:,将全部的内容返回,而不是将组内的内容返回
print(re.findall('compan(y|ies)', 'Too many companies have gone bankrupt, and the next one is my company'))
print(re.findall('compan(?:y|ies)', 'Too many companies have gone bankrupt, and the next one is my company'))

-----------------------------------------------------
# 常用方法

# re.findall()  # 全部找到返回一个列表

# re.search() # 找到第一个符合条件的字符串,然后返回一个包含匹配信息的对象,通过对象.group()获取
ret = re.search('sb|qwe', 'xiaomingt sb qwe')
print(ret)
print(ret.group())
# re.match() # 从字符串开头匹配,如果以符合条件的字符串开头则返回,否则返回None
ret = re.match('sb|qwe', 'xiaomingt sb qwe')
ret2 = re.match('sb|qwe', 'sbxiaomingt sb qwe')
print(ret)
print(ret2)


# split()  # 分割
s1 = 'xiaoming,tiaoshang;太阳~地球'
print(re.split('[;,~]', s1))  # 自定义分隔符

# sub 调换
print(re.sub('me', '我', 'me是最好的男人，me就是一个普通男人，请不要将me当男神对待。'))
print(re.sub('me', '我', 'me是最好的男人，me就是一个普通男人，请不要将me当男神对待。', 2))


# compile  配置匹配规则
obj = re.compile('d{2}')
print(obj.search('abc123eeee').group())  # => 12
print(obj.findall('abc123eeee')) # => ['12']

s1 = '''
时间就是1995-04-27,2005-04-27
1999-04-27 
 alex 1980-04-27:1980-04-27
2018-12-08
'''
print(re.findall('d{4}-d{2}-d{2}', s1))

s2 = '3325783547345nvn8b8473v 2893472893'
obj = re.compile('[1-9][0-9]{4,7}')
print(obj.findall(s2))

相关阅读:
优秀案例：18个美丽的图片在网页设计中的使用
 推荐几款很棒的 JavaScript 表单美化和验证插件
 25套用于 Web UI 设计的免费 PSD 网页元素模板
 字体排布艺术：30例可圈可点的版式设计欣赏
 Twitter Bootstrap 3.0 正式发布，更好地支持移动端开发
 引领网页设计潮流的优秀网页作品赏析《第三季》
Codrops 优秀教程：实现效果精美的多层推拉菜单
 字体大宝库：设计师必备的精美免费英文字体
 优秀前端开发教程：超炫的 Mobile App 3D 演示
 推荐35个新鲜出炉的响应式 Web 设计实例
原文地址：https://www.cnblogs.com/zyyhxbs/p/11122760.html