说起正则表达式,相信很多高手和大牛都不陌生,可对于我这个一年不写一段正则的人来说却是还是不知如何下手的,最近刚好接触了一些,总结写基础要点,第一用来加深记忆,第二分享给和我一样的初学者作为学习参考:
是请是这样的:前段时间在开发过程中遇到一个需求,从数据库中查询出来图片地址,在程序中需要加上域名,然后把所有的“"全部替换成”/",最后替换不同的尺寸格式。已经有了现成的类似的代码实现,只需要copy过来修改一下即可,可是发现使用C#的string.Replace()方法写实在有些捉襟见肘(代码看起来没有简洁之美)于是我想用正则表达式实现这个功能。
1 /// <summary> 2 /// 使用数组拆分,取得指定尺寸的图片的Url 3 /// </summary> 4 /// <param name="imagePath">图片路径 e.g:string imagePath = @"imghomelogo.png";</param> 5 /// <param name="size">资源文件夹内图片尺寸</param> 6 /// <param name="defaultPath">默认返回路径</param> 7 /// <returns>格式化的图片路径 e.g:/img/home/logo_180.png</returns> 8 public static string GetImageUrl(this string imagePath, string size = "_180", string defaultPath = "") 9 { 10 if (string.IsNullOrEmpty(imagePath)) 11 { 12 return defaultPath; 13 } 14 //处理图片路径 15 var path = imagePath.Replace("\", "/"); 16 var list = path.Split('.'); 17 if (list.Length > 1) 18 { 19 list[list.Length - 2] += size; 20 } 21 return string.Join(".", list); 22 }
这种方式是取巧,数据库中存储的图片地址一般是这种格式的:
imghomelogo.png
而图片服务器中的资源是大小是一整套的,默认的logo.png就是原图 logo_180.png就是小图 logo_420.png就是一般M站、App端尺寸图 等等。。。
我们先对这个地址反斜线处理:
得到:
/img/home/logo.png
然后,根据.进行split为数组,将前部分的字符串拼接上 “_180" 得到
/img/home/logo_180然后在和 png 通过 . Join一起,最终得到:
下面就换另一种方式,不使用数组拆分&合并,使用正则进行操作方法如下:
1 /// <summary> 2 /// 使用正则匹配,取得指定尺寸的图片的Url 3 /// </summary> 4 /// <param name="imagePath">图片路径 e.g:string imagePath = @"imghomelogo.png";</param> 5 /// <param name="size">资源文件夹内图片尺寸</param> 6 /// <param name="defaultPath">默认返回路径</param> 7 /// <returns>格式化的图片路径 e.g:/img/home/logo_180.png</returns> 8 public static string GetImageUrlByRegex(this string imagePath, string size = "_180", string defaultPath = "") 9 { 10 if (string.IsNullOrEmpty(imagePath)) 11 { 12 return defaultPath; 13 } 14 //处理图片路径 15 imagePath = imagePath.Replace("\", "/"); 16 //正则(前瞻)匹配转换大小,e.g.将匹配出来的 '.' 替换成'_640'+'.' 17 string pattern = @"(.)(?=jpg|png|bmp)"; 18 Regex reg = new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Multiline); 19 return reg.Replace(imagePath, string.Format("{0}{1}", size, "${1}")); 20 }
下面进行代码分解:
string pattern = @"(.)(?=jpg|png|bmp)"; 这段代码的意思是 正则匹配规则:将字符串中.jpg、.png、.bmp之类的分成两组匹配, . 和 png或jpg或bmp
其中.用于匹配并返回,
(?=jpg|png|bmp)这段的中的 ?= 意思是:一旦匹配到字符串中包含’.‘还不算完事儿,还要继续往前看看(.后面的字符串)是否满足包含jpg或png或bmp,并且.后面一旦页匹配成功,后面的部分只用于判断,不会返回
这样就可以使用${1}获取匹配返回来的’.'
我们就可以顺利的将imgPath中的.替换成 ”_180.“了,同样得到:
对于初学者来说理解起来好像没有那么清晰,毕竟需要先知道什么是”正则前瞻“和”正则后顾“
于是乎,咱们开始上基础姿势(我总结了一些常用的正则符号,并且加上了图片解释如下):
- . 匹配除“ ”之外的任何单个字符 比如 (http://www..+)+(.com) 可以匹配出所有的http:\www.开头 .com结尾的网址
- ? 0次或1次 如: d?
-
+ 1次或多次 如: d+
- * 0次或1次或多次 如: d*
- $ 结束字符,表示表达式结束,比如: d@com$ =>1@com能匹配上 1@comm就不行了,因为超出了结束标记
- ^ 开始字符 ^http://www..+.com$ =>http://www.baidu.com能够匹配,但是http://www.baidu.comm 或者 ahttp://www.baidu.com就不能匹配上,虽然字符串子集也包含表达式的规则
- 转义符,比如,b只是个字符,就是边界的意思 \就是的意思
- () 分组,这个比较好,清晰。将( 和 ) 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用 1 到9 的符号来引用。
- 比如:^([a-zA-Z]{1,6})@(qq|163)(.com)$
- d 数字 匹配一个数字字符。等价于[0-9]。grep 要加上-P,perl正则支持
- D 非数字 匹配一个非数字字符。等价于[^0-9]。grep要加上-Pperl正则支持
- w 匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的"单词"字符使用Unicode字符集。
- W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
- {m}{m,n} 形容一个匹配项出现m次,或者m-n次 如:w{6}
- [mn]等同于m|n 字符类,范围类[a-z]闭区间,包含a和z的26个小写字母
- 匹配出我们键盘上的tab空格
好了,基本上常用的正则符号这里都介绍了,因为还有很多,而且当我去百度的时候出来了一坨一坨的,密密麻麻,真的不知如何记下来辣么多,慢慢来吧,于是我就捡了这些重要而且常见的记了下来,相信一般的需求这些也都足够使用的了。但如果要用的很6,而且高效的话那就下功夫需要研究一番了。借用儒家提倡的那句老话:小伙儿,格物致知去吧。
今天刚刚知道随笔里面是有“代码片段”的功能,哈哈,可见还是写的太少啊,如果不严谨之处还望大家多多包涵,欢迎指正!
共勉之
--HelloCoder 二〇一六年十二月一日