• 我所理解的 KMP(Knuth–Morris–Pratt) 算法


    假设要在 haystack 中匹配 needle .

    要理解 KMP 先需要理解两个概念 proper prefix 和 proper suffix,由于找到没有合适的翻译,暂时分别称真实前缀 和 真实后缀。

    • 真实前缀(Proper prefix): 一个字符串中至少不包含一个尾部字符的前缀字符串。例如 "Snape" 的全部真实前缀是 “S”, “Sn”, “Sna”, and “Snap” .
    • 真实后缀(Proper suffix): 一个字符串中至少不包含一个头部字符的后缀字符串。例如 “Hagrid” 的全部真实后缀是 “agrid”, “grid”, “rid”, “id”, and “d”.

     KMP 的一个基本思想是:无论何时遇到匹配失败,我们已经匹配了一部分 needle 的字符串,它是 needle 的一个真实前缀,利用这个已匹配的真实前缀,我们可以避免重复匹配。如果想理解这个基本思想,可以参照 维基百科的例子 Knuth–Morris–Pratt algorithm example

    了解上面的基本思想后, 如何有效地利用 needle 的真实前缀信息?这个需要用一个数组 LofPS 记录。

    LofPS[i] 表示 needle[0...i] 中既是真实前缀又是真实后缀的最长字符串长度。

    上面这句话有点绕,但是仍然需要理解,因为无论少了那部分短语,意思都会不完整。

     1 vector<int> LofPS;
     2 
     3 /**
     4  * 求 s 中所有前缀字符串[0...i]各自的 既是真实前缀又是真实后缀的子字符串最长长度,存于 LofPS[i]。
     5  *
     6  * 例如令 len = LofPS[i],则表示 真实前缀s[0...len-1] 和 真实后缀s[ i-len+1...i ] 相等。
     7  *
     8  */
     9 vector<int> computePrefixSuffix(string s){
    10     
    11     // LofPS[i] 表示 s[0....i] 部分中,既是真实前缀又是真实后缀的子字符串最长长度。
    12     vector<int> LofPS(s.size());
    13     
    14     if (s.size() == 0) {
    15         return LofPS;
    16     }
    17     
    18     LofPS[0] = 0;
    19     
    20     int len = 0;
    21     int i = 1;
    22     
    23     while (i < s.size()) {
    24         
    25         if (s[i] == s[len]) {
    26             len++;
    27             LofPS[i] = len;
    28             i++;
    29             continue;
    30         }
    31                 
    32         if (len != 0) {
    33             // 利用之前计算的结果。这里是一个需要理解的点。
    34             // 根据已计算的 LofPS[len-1]部分 真实前缀、真实后缀的相等的最长长度,定位同样匹配 s 前缀但是更短的子字符串。
    35             len = LofPS[len - 1];
    36         }else{
    37             LofPS[i] = 0;
    38             i++;
    39         }
    40     }
    41     
    42     return LofPS;
    43 }
    44 
    45 
    46 int KMPsearch(string haystack, string needle) {
    47     
    48     // 计算 needle 中所有前缀字符串[0...idx]各自的真实前缀且是真实后缀的最长长度。
    49     vector<int> tmp(needle.size());
    50     LofPS = tmp;
    51     
    52     LofPS = computePrefixSuffix(needle);    
    53     
    54     int i = 0 ;
    55     int k = 0;
    56 
    57     while (i < haystack.size() && k < needle.size()) {
    58         if (haystack[i] == needle[k]) {
    59             i++;
    60             k++;
    61             continue;
    62         }
    63         
    64         if (LofPS[k-1] != 0) {
    65             k = LofPS[k-1];
    66             continue;
    67         }
    68         
    69         if (haystack[i] == needle[0]) {
    70             k = 1;
    71             i++;
    72         }else{
    73             k = 0;
    74             i++;
    75         }
    76     }
    77 
    78     if (k == needle.size()) {
    79         return i - k;
    80     }else{
    81         return -1;
    82     }
    83 }

    参考资料:

    Searching for Patterns | Set 2 (KMP Algorithm), geeksforgeeks 

    The Knuth-Morris-Pratt Algorithm in my own words, jBoxer

     Worked example in Knuth–Morris–Pratt algorithm, wikipedia 

  • 相关阅读:
    k8s安装
    jinja +grains 取变量
    项目跨域问题
    Node.js做Web后端优势为什么这么大?
    Chrome使用技巧
    看完这篇操作系统吊打面试官
    几款国产操作系统的区别
    如果红军是一家公司,依然是最后的大赢家
    RPA AI .NET Core 与未来--学习笔记
    Oracle中MERGE INTO用法解析
  • 原文地址:https://www.cnblogs.com/TonyYPZhang/p/5077279.html
Copyright © 2020-2023  润新知