• 字符串匹配之BM算法


    一、前言

      在用于查找子字符串的算法当中,BM(Boyer-Moore)算法是目前被认为最高效的字符串搜索算法,它由Bob Boyer和J Strother Moore设计于1977年。 一般情况下,比KMP算法快3-5倍。该算法常用于文本编辑器中的搜索匹配功能,比如大家所熟知的GNU grep命令使用的就是该算法,这也是GNU grep比BSD grep快的一个重要原因,具体推荐看下我最近的一篇译文“为什么GNU grep如此之快?”作者是GNU grep的编写者Mike Haertel。

    二、BM算法原理

    1.

    假定字符串为"HERE IS A SIMPLE EXAMPLE",搜索词为"EXAMPLE"。

    2.

    首先,"字符串"与"搜索词"头部对齐,从尾部开始比较。

    这是一个很聪明的想法,因为如果尾部字符不匹配,那么只要一次比较,就可以知道前7个字符(整体上)肯定不是要找的结果。

    我们看到,"S"与"E"不匹配。这时,"S"就被称为"坏字符"(bad character),即不匹配的字符。我们还发现,"S"不包含在搜索词"EXAMPLE"之中,这意味着可以把搜索词直接移到"S"的后一位。

    3.

    依然从尾部开始比较,发现"P"与"E"不匹配,所以"P"是"坏字符"。但是,"P"包含在搜索词"EXAMPLE"之中。所以,将搜索词后移两位,两个"P"对齐。

    4.

    我们由此总结出"坏字符规则":

      后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

    如果"坏字符"不包含在搜索词之中,则上一次出现位置为 -1。

    以"P"为例,它作为"坏字符",出现在搜索词的第6位(从0开始编号),在搜索词中的上一次出现位置为4,所以后移 6 - 4 = 2位。再以前面第二步的"S"为例,它出现在第6位,上一次出现位置是 -1(即未出现),则整个搜索词后移 6 - (-1) = 7位。

    5.

    依然从尾部开始比较,"E"与"E"匹配。

    6.

    比较前面一位,"LE"与"LE"匹配。

    7.

    比较前面一位,"PLE"与"PLE"匹配。

    8.

    比较前面一位,"MPLE"与"MPLE"匹配。我们把这种情况称为"好后缀"(good suffix),即所有尾部匹配的字符串。注意,"MPLE"、"PLE"、"LE"、"E"都是好后缀。

    9.

    比较前一位,发现"I"与"A"不匹配。所以,"I"是"坏字符"。

    10.

    根据"坏字符规则",此时搜索词应该后移 2 - (-1)= 3 位。问题是,此时有没有更好的移法?

    11.

    我们知道,此时存在"好后缀"。所以,可以采用"好后缀规则":

      后移位数 = 好后缀的位置 - 搜索词中的上一次出现位置

    举例来说,如果字符串"ABCDAB"的后一个"AB"是"好后缀"。那么它的位置是5(从0开始计算,取最后的"B"的值),在"搜索词中的上一次出现位置"是1(第一个"B"的位置),所以后移 5 - 1 = 4位,前一个"AB"移到后一个"AB"的位置。

    再举一个例子,如果字符串"ABCDEF"的"EF"是好后缀,则"EF"的位置是5 ,上一次出现的位置是 -1(即未出现),所以后移 5 - (-1) = 6位,即整个字符串移到"F"的后一位。

    这个规则有三个注意点:

      (1)"好后缀"的位置以最后一个字符为准。假定"ABCDEF"的"EF"是好后缀,则它的位置以"F"为准,即5(从0开始计算)。

      (2)如果"好后缀"在搜索词中只出现一次,则它的上一次出现位置为 -1。比如,"EF"在"ABCDEF"之中只出现一次,则它的上一次出现位置为-1(即未出现)。

      (3)如果"好后缀"有多个,则除了最长的那个"好后缀",其他"好后缀"的上一次出现位置必须在头部。比如,假定"BABCDAB"的"好后缀"是"DAB"、"AB"、"B",请问这时"好后缀"的上一次出现位置是什么?回答是,此时采用的好后缀是"B",它的上一次出现位置是头部,即第0位。这个规则也可以这样表达:如果最长的那个"好后缀"只出现一次,则可以把搜索词改写成如下形式进行位置计算"(DA)BABCDAB",即虚拟加入最前面的"DA"。

    回到上文的这个例子。此时,所有的"好后缀"(MPLE、PLE、LE、E)之中,只有"E"在"EXAMPLE"还出现在头部,所以后移 6 - 0 = 6位。

    12.

    可以看到,"坏字符规则"只能移3位,"好后缀规则"可以移6位。所以,Boyer-Moore算法的基本思想是,每次后移这两个规则之中的较大值。

    更巧妙的是,这两个规则的移动位数,只与搜索词有关,与原字符串无关。因此,可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时,只要查表比较一下就可以了。

    13.

    继续从尾部开始比较,"P"与"E"不匹配,因此"P"是"坏字符"。根据"坏字符规则",后移 6 - 4 = 2位。

    14.

    从尾部开始逐位比较,发现全部匹配,于是搜索结束。如果还要继续查找(即找出全部匹配),则根据"好后缀规则",后移 6 - 0 = 6位,即头部的"E"移到尾部的"E"的位置。

    三、BM算法原理探讨

    该算法的难点在于如何生成坏字符规则表和好后缀规则表。下面我们对这两个数组分别进行探讨。

      1、坏字符算法

        (1)坏字符算法原理

          当出现一个坏字符时, BM算法向右移动模式串, 让模式串中最靠右的对应字符与坏字符相对,然后继续匹配。坏字符算法有两种情况。

          Case1:模式串中有对应的坏字符时,让模式串中最靠右的对应字符与坏字符相对(PS:BM不可能走回头路,因为若是回头路,则移动距离就是负数了,肯定不是最大移动步数了),如下图。

    BM-math05

          Case2:模式串中不存在坏字符,很好,直接右移整个模式串长度这么大步数,如下图。

    BM-math06

        (2)坏字符算法具体实现  

          这个计算应该很容易,似乎只需要bmBc[i] = m – 1 – i就行了,但这样是不对的,因为i位置处的字符可能在pattern中多处出现(如下图所示),而我们需要的是最右边的位置,这样就需要每次循环判断了,非常麻烦,性能差。

          这里有个小技巧,就是使用字符作为下标而不是位置数字作为下标。这样只需要遍历一遍即可,这貌似是空间换时间的做法,但如果是纯8位字符也只需要256个空间大小,而且对于大模式,可能本身长度就超过了256,所以这样做是值得的                     (这也是为什么数据越大,BM算法越高效的原因之一)。

    BM-math09

          如前所述,bmBc[]的计算分两种情况,与前一一对应。

            Case1:字符在模式串中有出现,bmBc[‘v’]表示字符v在模式串中最后一次出现的位置,距离模式串串尾的长度,如上图所示。

            Case2:字符在模式串中没有出现,如模式串中没有字符v,则BmBc[‘v’] = strlen(pattern)。

          写成代码也非常简单:

    1  //生成坏子串数组
    2    vector<int> badVect(256,needle.size());
    3    //数组最后一个值不考虑
    4    for(int i = 0;i<needle.size()-1;i++){
    5        badVect[needle[i]] = needle.size()-i-1;
    6    }

    2、好后缀算法

      (1)好后缀算法原理  

        如果程序匹配了一个好后缀, 并且在模式中还有另外一个相同的后缀或后缀的部分, 那把下一个后缀或部分移动到当前后缀位置。假如说,pattern的后u个字符和text都已经匹配了,但是接下来的一个字符不匹配,我需要移动才能匹配。

        如果说后u个字符在pattern其他位置也出现过或部分出现,我们将pattern右移到前面的u个字符或部分和最后的u个字符或部分相同,如果说后u个字符在pattern其他位置完全没有出现,很好,直接右移整个pattern。

        这样,好后缀算法有三种情况,如下图所示:

        Case1:模式串中有子串和好后缀完全匹配,则将最靠右的那个子串移动到好后缀的位置继续进行匹配。

    BM-math07

        Case2:如果不存在和好后缀完全匹配的子串,则在好后缀中找到具有如下特征的最长子串,使得P[m-s…m]=P[0…s]。

            注:最长子串一定是模式串的前缀串。

    BM-math08

        Case3:如果完全不存在和好后缀匹配的子串,则右移整个模式串。

      (2)好后缀算法实现

      这里bmGs[]的下标是数字而不是字符了,表示字符在pattern中位置。

      如前所述,bmGs数组的计算分三种情况,与前一一对应。假设图中好后缀长度用数组suff[]表示。

      Case1:对应好后缀算法case1,如下图,j是好后缀之前的那个位置。

    BM-math11

      Case2:对应好后缀算法case2:如下图所示:

    BM-math13

      Case3:对应与好后缀算法case3,bmGs[i] = strlen(pattern)= m

    BM-math14

        确定好好后缀子串分为以上三种情况后,需要解决以上两个问题:

        a、找到suff[i]与i的定量关系。

        b、确定不同情况下i与j的关系。

               a、找到suff[i]与i的定量关系 

        suff数组的定义:m是pattern的长度

        1. suffix[m-1] = m;
        2. suffix[i] = k
            for [ pattern[i-k+1] ….,pattern[i]] == [pattern[m-1-k+1],pattern[m-1]]

        看上去有些晦涩难懂,实际上suff[i]就是求pattern中以i位置字符为后缀和以最后一个字符为后缀的公共后缀串的长度。不知道这样说清楚了没有,还是举个例子吧:

          i     : 0 1 2 3 4 5 6 7
          pattern: b c  a b a b a b

          当i=7时,按定义suff[7] = strlen(pattern) = 8

          当i=6时,以pattern[6]为后缀的后缀串为bcababa,以最后一个字符b为后缀的后缀串为bcababab,两者没有公共后缀串,所以suff[6] = 0

          当i=5时,以pattern[5]为后缀的后缀串为bcabab,以最后一个字符b为后缀的后缀串为bcababab,两者的公共后缀串为abab,所以suff[5] = 4

            以此类推……

          当i=0时,以pattern[0]为后缀的后缀串为b,以最后一个字符b为后缀的后缀串为bcababab,两者的公共后缀串为b,所以suff[0] = 1

          这样看来代码也很好写:

    1  //生成suff
    2    for(int i = 0;i<needle.size()-1;i++){
    3       // int count = 0;
    4        int j = 0;
    5        while(((i-j)>=0)&&(needle[i-j]==needle[needle.size()-j-1])){
    6            j++;
    7        }
    8        suff[i] = j;
    9    }

         b、确定不同情况下i与j的关系。

          

     1    //好子串下标j
     2    int j = 0;
     3    for(int i = 0;i<needle.size();i++){
     4        if(suff[i] == i+1){
     5            for(;j<needle.size()-i;j++){
     6                 goodVect[j] = needle.size()-suff[i];
     7            }
     8        }
     9        else{
    10            j = needle.size()-suff[i]-1;
    11            goodVect[j] = needle.size()-i-1;
    12        }
    13    }

    整体代码如下:

     1 class Solution {
     2 public:
     3     int strStr(string haystack, string needle) {
     4 
     5    //S2 BM算法
     6     if(needle.empty()) return 0;
     7     if(haystack.empty()) return -1;
     8    //生成坏子串数组
     9    vector<int> badVect(256,needle.size());
    10    //数组最后一个值不考虑
    11    for(int i = 0;i<needle.size()-1;i++){
    12        badVect[needle[i]] = needle.size()-i-1;
    13    }
    14    //生成好子串数组
    15    vector<int> goodVect(needle.size(),needle.size());
    16    vector<int> suff(needle.size(),needle.size());
    17    //生成suff
    18    for(int i = 0;i<needle.size()-1;i++){
    19       // int count = 0;
    20        int j = 0;
    21        while(((i-j)>=0)&&(needle[i-j]==needle[needle.size()-j-1])){
    22            j++;
    23        }
    24        suff[i] = j;
    25    }
    26    //好子串
    27    //好子串下标j
    28    int j = 0;
    29    for(int i = 0;i<needle.size();i++){
    30        if(suff[i] == i+1){
    31            for(;j<needle.size()-i;j++){
    32                 goodVect[j] = needle.size()-suff[i];
    33            }
    34        }
    35        else{
    36            j = needle.size()-suff[i]-1;
    37            goodVect[j] = needle.size()-i-1;
    38        }
    39    }
    40    //匹配
    41     j = 0;
    42     int i;
    43     int n = haystack.size();
    44     int m = needle.size();
    45     while(j <= n - m)
    46     {
    47         for( i = m - 1; i >= 0 && needle[i] == haystack[i + j]; i--);
    48         if(i < 0)
    49         {
    50            return j;
    51             j += goodVect[0];
    52         }
    53         else
    54         {
    55             j += max(badVect[haystack[i + j]] - m + 1 + i, goodVect[i]);
    56         }
    57     }
    58  return -1;
    59  
    60     }
    61 };
  • 相关阅读:
    SQLite打开提示database disk image is malformed
    windows查看端口占用
    新浪SAE使用Thinkphp框架,禁用memcache节省豆子的方法
    Realtek 8168 安装 VMware ESXi 提示没有驱动
    13年国庆彩蛋
    Flex使用宋体渲染越南语显示错误
    微信 编码要UTF8
    WeiXin 验证成为开发者和更换服务器验证代码
    测试网络连通情况
    废弃sqlite代码,备查
  • 原文地址:https://www.cnblogs.com/timesdaughter/p/5526993.html
Copyright © 2020-2023  润新知