【转载】理解正则表达式的贪婪与非贪婪模式

【转载】理解正则表达式的贪婪与非贪婪模式
概述

贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多地匹配，而非贪婪模式在整个表达式匹配成功的前提下，尽可能少地匹配。非贪婪模式只被部分NFA引擎（确定性有穷自动机）所支持。

属于贪婪模式的量词，也叫做匹配优先量词，包括：
```
1 “{m,n}?”、“{m,}?”、“??”、“*?”、“+?”
```
从正则语法的角度来讲，被匹配优先量词修饰的子表达式使用的就是贪婪模式，如“(Expression)+”；被忽略优先量词修饰的子表达式使用的就是非贪婪模式，如(Expression)+?。对于贪婪模式，各种文档的叫法基本一致，但是对于非贪婪模式，有的叫懒惰模式或惰性模式，有的叫勉强模式。其实叫什么无所谓，只要掌握原理和用法，能够运用自如就好。个人习惯使用贪婪与非贪婪的叫法，所以文中都会使用这种叫法进行介绍。

贪婪与非贪婪模式匹配原理

对于贪婪与非贪婪模式，可以从应用和原理两个角度进行理解，但如果想真正掌握，还是要从匹配原理来理解。先从应用的角度，回答一下“什么是贪婪与非贪婪模式”。先看一个例子，源字符串：
```
before<div>block one</div>middle<div>block two</div>after
```
正则表达式一：
```
1 <div>.*</div> 
```
匹配结果一：
```
<div>block one</div>middle<div>block two</div>
```
正则表达式二：
```
1 <div>.*?</div> 
```
匹配结果二：
```
<div>block one</div>（这里指的是一次匹配结果，所以没包括<div>block two</div>） 
```
根据上面的例子，从匹配行为上分析一下，什是贪婪与非贪婪模式。正则表达式一采用的是贪婪模式，在匹配到第一个</div>时已经可以使整个表达式匹配成功，但是由于采用的是贪婪模式，所以仍然要向右尝试匹配，查看是否还有更长的可以成功匹配的子串，匹配到第二个</div>后，向右再没有可以成功匹配的子串，匹配结束，匹配结果为<div>block one</div>block two<div>block three</div>。当然，实际的匹配过程并不是这样的，后面的匹配原理会详细介绍。仅从应用角度分析，可以这样认为，贪婪模式，就是在整个表达式匹配成功的前提下，尽可能多地匹配，也就是所谓的“贪婪”，通俗点讲，就是看到想要的，有多少就匹配多少，除非再也没有想要的了。正则表达式二采用的是非贪婪模式，在匹配到第一个</div>时使整个表达式匹配成功，由于采用的是非贪婪模式，所以结束匹配，不再向右尝试，匹配结果为<div>block one</div>。仅从应用角度分析，可以这样认为，非贪婪模式，就是在整个表达式匹配成功的前提下，尽可能少地匹配，也就是所谓的“非贪婪”，通俗点讲，就是找到一个想要的捡起来就行了，至于还有没有没捡的就不管了。

关于前提条件的说明。在上面从应用角度分析贪婪与非贪婪模式时，一直提到的一个前提条件就是“整个表达式匹配成功”，为什么要强调这个前提，我们看下下面的例子。

正则表达式三：
```
1 <div>.*</div>middle
```
匹配结果三：
```
<div>block one</div>middle
```
修饰“.”的仍然是匹配优先量词“*”，所以这里还是贪婪模式，前面的<div>.*</div>仍然可以匹配到<div>block one</div>middle<div>block two</div>，但是由于后面的middle无法匹配成功，这时<div>.*</div>必须让出已匹配的middle<div>block two</div>，以使整个表达式匹配成功。这时整个表达式匹配的结果为<div>block one</div>middle，<div>.*</div>匹配的内容为<div>block one</div>。可以看到，在“整个表达式匹配成功”的前提下，贪婪模式才真正地影响着子表达式的匹配行为，如果整个表达式匹配失败，贪婪模式只会影响匹配过程，对匹配结果的影响无从谈起。非贪婪模式也存在同样的问题，来看下面的例子。

正则表达式四：
```
1 <div>.*?</div>after
```
匹配结果四：
```
<div>block one</div>middle<div>block two</div>after 
```
这里采用的是非贪婪模式，前面的<div>.*?</div>仍然是匹配到<div>block one</div>为止，此时后面的after无法匹配成功，要求<div>.*?</div>必须继续向右尝试匹配，直到匹配内容为<div>block one</div>middle<div>block two</div>时，后面的after才能匹配成功，整个表达式匹配成功，匹配的内容为<div>block one</div>middle<div>block two</div>after，其中<div>.*?</div>匹配的内容为<div>block one</div>middle<div>block two</div>。可以看到，在“整个表达式匹配成功”的前提下，非贪婪模式才真正的影响着子表达式的匹配行为，如果整个表达式匹配失败，非贪婪模式无法影响子表达式的匹配行为。

通过应用角度的分析，已基本了解了贪婪与非贪婪模式的特性，那么在实际应用中，究竟是选择贪婪模式，还是非贪婪模式呢，这要根据需求来确定。对于一些简单的需求，比如源字符为before<div>block one</div>middle，那么取得div标签，使用贪婪与非贪婪模式都可以取得想要的结果，使用哪一种或许关系不大。但是就上述例子来说，在实际应用中，一般一次只需要取得一个配对出现的div标签，也就是非贪婪模式匹配到的内容，贪婪模式所匹配到的内容通常并不是我们所需要的。那为什么还要有贪婪模式的存在呢，从应用角度很难给出满意的解答了，这就需要从匹配原理的角度去分析贪婪与非贪婪模式。

下面从匹配原理角度分析贪婪与非贪婪模式。如果想真正了解什么是贪婪模式，什么是非贪婪模式，分别在什么情况下使用，各自的效率如何，那就不能仅仅从应用角度分析，而要充分了解贪婪与非贪婪模式的匹配原理。NFA引擎匹配原理，这里主要针对贪婪与非贪婪模式涉及到的匹配原理进行介绍。先看一下贪婪模式简单的匹配过程。

采用源字符串："Regex"
采用正则表达式：.*

来看一下匹配过程。首先由第一个“””取得控制权，匹配位置0位的“””，匹配成功，控制权交给“.*”。“.*”取得控制权后，由于“*”是匹配优先量词，在可匹配可不匹配的情况下，优先尝试匹配。从位置1处的“R”开始尝试匹配，匹配成功，继续向右匹配，匹配位置2处的“e”，匹配成功，继续向右匹配，直到匹配到结尾的“””，匹配成功，由于此时已匹配到字符串的结尾，所以“.*”结束匹配，将控制权交给正则表达式最后的“””。“””取得控制权后，由于已经在字符串结束位置，匹配失败，向前查找可供回溯的状态，控制权交给“.*”，由“.*”让出一个字符，也就是字符串结尾处的“””，再把控制权交给正则表达式最后的“””，由“””匹配字符串结尾处的“””，匹配成功。此时整个正则表达式匹配成功，其中“.*”匹配的内容为“Regex”，匹配过程中进行了一次回溯。接下来看一下非贪婪模式简单的匹配过程。

采用源字符串："Regex"
采用正则表达式：.*?

看一下非贪婪模式的匹配过程。首先由第一个“””取得控制权，匹配位置0位的“””，匹配成功，控制权交给“.*?”。“.*?”取得控制权后，由于“*?”是忽略优先量词，在可匹配可不匹配的情况下，优先尝试不匹配，由于“*”等价于“{0,}”，所以在忽略优先的情况下，可以不匹配任何内容。从位置1处尝试忽略匹配，也就是不匹配任何内容，将控制权交给正则表达式最后的“””。“””取得控制权后，从位置1处尝试匹配，由“””匹配位置1处的“R”，匹配失败，向前查找可供回溯的状态，控制权交给“.*?”，由“.*?”吃进一个字符，匹配位置1处的“R”，再把控制权交给正则表达式最后的“””。“””取得控制权后，从位置2处尝试匹配，由“””匹配位置1处的“e”，匹配失败，向前查找可供回溯的状态，重复以上过程，直到由“.*?”匹配到“x”为止，再把控制权交给正则表达式最后的“””。“””取得控制权后，从位置6处尝试匹配，由“””匹配字符串最后的“””，匹配成功。此时整个正则表达式匹配成功，其中“.*?”匹配的内容为“Regex”，匹配过程中进行了五次回溯。

通过匹配原理的分析，可以看到，在匹配成功的情况下，贪婪模式进行了更少的回溯，而回溯的过程，需要进行控制权的交接，让出已匹配内容或匹配未匹配内容，并重新尝试匹配，在很大程度上降低匹配效率，所以贪婪模式与非贪婪模式相比，存在匹配效率上的优势。上述例子中，仅仅是一个简单的应用，读者看到这里时，是否会存在这样的疑问，贪婪模式就一定比非贪婪模式匹配效率高吗？答案是否定的。

转自：https://blog.csdn.net/u014762221/article/details/68953155
相关阅读:
Spring注解驱动开发3：自动装配
 Spring注解驱动开发2：生命周期和属性赋值
 Spring注解驱动开发1：组件注册
 Java线程及其实现方式
 Winform 可取消的单选按钮（RadioButton）
autoit脚本-从基本的函数用法开始
 python进阶（一）
dict字典的一些优势和劣势
 读《流畅的python》第一天
 智能化脚本autoit v3的简单了解
原文地址：https://www.cnblogs.com/xhb-bky-blog/p/8883868.html

【转载】理解正则表达式的贪婪与非贪婪模式

概述

贪婪与非贪婪模式匹配原理