正则有一个最大的好处就是效率高,对于一些复杂的字符串匹配的问题,如果用原生原生API解决比较繁琐,可以考虑用正则表达式来匹配。
这几天正在研究正则的循环匹配的问题,分享出来看看。
分组实现循环匹配
正则表达式中的分组是一个很重要的功能,有了它,我们可以进行分组的查询替换操作,下面是例子
var reg = /(abc|hij)/g;
"abcdefghij".replace(reg,"-");
//它会匹配分组里面的abc或hij 替换成-,输出结果 :-defg-
当正则表达式中有分组时,JS正则引擎实现了一个 美元符号+数字 ($1,$2.$3 … )按顺序匹配对应到的分组。
var reg = /(abc)(def)/g
"abcdef".replace(reg,"$2$1")
"defabc"
//这个例子就是abc->$1 def->$2 ,然后把匹配的分组替换了。
再进一步,如果分组中存在多个匹配(贪婪模式)时,光写$1,$2..就满足不了需求了。
举个例子:银行卡四位空格的处理
var reg = /(\d{4})+?/g
"6226600000000001".replace(reg,"$1 ")
/*
这个$1匹配的是对应的循环出来的分组 不仅仅是第一分组,在这里的含义就是循环出来的每一个分组
"6226 6000 0000 0001"
*/
也就是说,如果正则想对贪婪模式的分组做处理时,譬如说替换,插入等操作时。 $1 就代表每次循环出来的分组
记一些正则比较冷门的知识。
//把相同的字符区分开来 aabbcccdddd -> "aa bb ccc dddd"
"aaabbcccdddd".match(/([a-z])\1+/g)
//输出:["aaa", "bb", "ccc", "dddd"]
//\n -> "斜杠后面带数字意味着相同的字符连续匹配n次,如果是连续匹配2次就是 \1 两次以上就是 \1+"
后向先行断言 (匹配到字符串后面的位置)
按上面的银行卡四位空格的的要求:我们写下如下的正则表达式
"1111222233334444".replace(/(?<=(^(\d{4})+))(?<!$)/g," ")
后向先行断言概念:?<=
这个api 是匹配后面位置的 就是说 匹配到所在字符的后面位置。
举个例子:
//aaabbbccc 需要匹配aaa 后面的所有内容
"aaabbbccc".match(/(?<=aaa).+/g)
上面的银行卡四位空格的 可以分步骤来分析。
- 第一步:先得出第一个空格
/(?<=^(\d{4}))/
得出来:1111 222233334444 - 第二步:得出其他的空格,也就是分组多加个
+
号 进行贪婪匹配,并且全局搜索匹配(?<=(^(\d{4})+))/g
- 第三步:我们发现最末尾的也会多出来空格,这个空格是我们不想看到的。所以最后的末尾我们不去匹配。
/(?<=(^(\d{4})+))(?<!$)/g