正则表达式

正则表达式：regular expression regex RE

正则表达式是用来简洁表达一组字符串的表达式

通用的字符串表达框架

简洁表达一组字符串的表达式

针对字符串表达“简洁”和“特征”思想的工具

判断某字符串的特征归属

正则表达式在文本处理中十分常用

表达文本类型的特征（病毒、入侵等）

同时查找或替换一组字符串

匹配字符串的全部或部分

正则表达式的使用

编译：将符合正则表达式语法的字符串转换成正则式表达特征

正则表达式的语法

正则表达式语法由字符和操作符构成

正则表达式的常用操作符

实例

IP地址

Re库的基本使用

Re库介绍：Re库是Python的标准库，主要用于字符串匹配

正则表达式的表示类型

需要多加一个来表示正则表达式的

因此当正则表达式含有转义字符时，需要用raw string

re库的主要函数

大部分都返回match对象

re.search(pattern, string,flags=0)

pattern：正则表达式的字符串或原生字符串表示

string：待匹配字符串

flags：正则表达式使用时的控制标记

re.s可以匹配所有字符

match = re.search(r'[1-9]d{5}','WFR 100860')
if match:
print(match.group(0))
else:
print('error')
 
 
100860
re.match(pattern, string,flags=0) 各参数与前述相同 
match = re.match(r'[1-9]d{5}','WFR 100860')#此时的match 为空
if match:
print(match.group(0))
else:
print('error')
error
 

match   = re.match(r'[1-9]d{5}','123456 DF')
if match:
        print(match.group(0))
else:
        print('error')
 
 
 
12re.findall(pattern, string, flags=0) 各参数与前述相同
 
match   = re.findall(r'[1-9]d{5}','123456 DF 102523')
print(match)
s = re.findall(r'[d]','123.3 2.3 1000')
print(s)
 
s = re.findall(r'[d.]','123.3 2.3 1000')
print(s)
 
s = re.findall(r'[d.]*','123.3 2.3 1000')
print(s)
 
re.split
match   = re.split(r'[1-9]d{5}','SFF123456 DF 102523')
print(match) #删除了匹配部分
 
match   = re.split(r'[1-9]d{5}','SFF123456 DF 102523',maxsplit=1)
print(match)







re.finditer(pattern, string, flags=0) 各参数与前述相同
for  i  in re.finditer(r'[1-9]d{5}','SFF123456 DF 102523'):
         if i :#一定要先判断，如果为空会报错NoneType
              print(i.group(0))
 
re.sub
print(re.sub(r'[1-9]d{5}',':okok','SFF123456 DF 102523'))

print(re.sub(r'[1-9]d{5}',':okok','SFF123456 DF 102523',count=1))
re库的另一种等价写法
rst = pat.search('BIT 100081') #此时需要把正则表达式参数去掉
 regex = re.compile(pattern,flags=0)
 
也就等价于
大部分都返回match对象
Re库的match对象 
match对象的属性
 match  = re.search(r'[1-9]d{5}','NJI 102346')
if match:
         print(match.group(0))
         print(type(match))
         print(match.string)
         print(match.re)
         print(match.pos)
         print(match.endpos)
 
match  = re.search(r'[1-9]d{5}','NJI 102346')
if match:
         print(match.group(0))
         print(match.start())
         print(match.end())
         print(match.span())
 
 
 
Re库的贪婪匹配和最小匹配
 .*
 .*?
 
 re库总结