正则表达式括号的使用
1 分组
上一章提到过的量词只针对紧邻的字符(组)起作用,例如HTML语言中的标签<table></table>匹配:
<table[s>][sS]+?</table>
其中忽略优先量词+?,只对紧邻的字符组[sS]起作用,如果需要对之前所有的部分起作用就需要用到圆括号(),写成:
(<table[s>][sS])+?</table>
起到了将<table[s>][sS]看做一个整体的作用,即分组。
2 多选结构
括号的第二个作用就是制造出一个多选结构,两个或以上个表达式中都是合法匹配的表达式(适用多种情况时),多选结构的形式是(...|...),用竖线|分割子表达式,这些子表达式也叫多选分支,多选分支可以有好多个,只要有1个分支匹配成功即宣告匹配成功,否则匹配失败,可以类比C语言中的switch-case结构,失败就走default下的代码。
3 Pattern
Pattern对应正则表达式对象,如何把一个字符串变成程序可以识别的正则表达式?这就需要用到Pattern的方法compile():
Pattern pattern = Pattern.compile(String regex);
regex 是提前编辑好的正则表达式字符串。这样编译好的正则表达式可以为接下来的切分或者匹配操作铺垫。
4 Matcher
Matcher可以理解为“某次匹配的结果对象”。就是把编译过的Pattern对象应用到某个String对象(下面的例子使用text表示),产生的Matcher对象结果。例如:
Pattern pattern = Pattern.compile(String regex);
Matcher matcher = pattern.matcher(String text);
那么如何获取到匹配成功的结果呢?Matcher对象调用方法find(),返回true就表示找到一个匹配,反之false就是没找到。进一步地如果想要得到匹配的内容呢?
为了解决这个问题,就先切到括号的下一个使用方法。
5 引用分组
在使用括号之后,正则表达式会保存每个分组真正匹配的字符串。这种功能叫做捕获分组,括号叫做捕获型括号。那么如何根据个人的意愿选择输出某一个分组,或者某几个分组?
答案是,使用编号,从表达式最左边的左括号编号记为1,这一对左右括号之间的部分为分组1,例如:
表达式:((d{1})-(d{2})-(d{3}))
1号分组:(d{1})-(d{2})-(d{3})
2号分组:d{1}
3号分组:d{2}
4号分组:d{3}
Matcher对象可以调用group(int i)方法,获取相应的分组,其中i是分组编号,0号分组是表示整个表达式所捕获的分组:
while(matcher.find()){
System.out.println(matcher.group());
//不加参数i相当于i=0
}