我所理解的 KMP(Knuth–Morris–Pratt) 算法

假设要在 haystack 中匹配 needle .

要理解 KMP 先需要理解两个概念 proper prefix 和 proper suffix，由于找到没有合适的翻译，暂时分别称真实前缀和真实后缀。

真实前缀(Proper prefix): 一个字符串中至少不包含一个尾部字符的前缀字符串。例如 "Snape" 的全部真实前缀是 “S”, “Sn”, “Sna”, and “Snap” .
真实后缀(Proper suffix): 一个字符串中至少不包含一个头部字符的后缀字符串。例如 “Hagrid” 的全部真实后缀是 “agrid”, “grid”, “rid”, “id”, and “d”.

KMP 的一个基本思想是：无论何时遇到匹配失败，我们已经匹配了一部分 needle 的字符串，它是 needle 的一个真实前缀，利用这个已匹配的真实前缀，我们可以避免重复匹配。如果想理解这个基本思想，可以参照维基百科的例子 Knuth–Morris–Pratt algorithm example。

了解上面的基本思想后，如何有效地利用 needle 的真实前缀信息？这个需要用一个数组 LofPS 记录。

LofPS[i] 表示 needle[0...i] 中既是真实前缀又是真实后缀的最长字符串长度。

上面这句话有点绕，但是仍然需要理解，因为无论少了那部分短语，意思都会不完整。

 1 vector<int> LofPS;
 2 
 3 /**
 4  * 求 s 中所有前缀字符串[0...i]各自的 既是真实前缀又是真实后缀的子字符串最长长度，存于 LofPS[i]。
 5  *
 6  * 例如令 len = LofPS[i]，则表示 真实前缀s[0...len-1] 和 真实后缀s[ i-len+1...i ] 相等。
 7  *
 8  */
 9 vector<int> computePrefixSuffix(string s){
10     
11     // LofPS[i] 表示 s[0....i] 部分中，既是真实前缀又是真实后缀的子字符串最长长度。
12     vector<int> LofPS(s.size());
13     
14     if (s.size() == 0) {
15         return LofPS;
16     }
17     
18     LofPS[0] = 0;
19     
20     int len = 0;
21     int i = 1;
22     
23     while (i < s.size()) {
24         
25         if (s[i] == s[len]) {
26             len++;
27             LofPS[i] = len;
28             i++;
29             continue;
30         }
31                 
32         if (len != 0) {
33             // 利用之前计算的结果。这里是一个需要理解的点。
34             // 根据已计算的 LofPS[len-1]部分 真实前缀、真实后缀的相等的最长长度，定位同样匹配 s 前缀但是更短的子字符串。
35             len = LofPS[len - 1];
36         }else{
37             LofPS[i] = 0;
38             i++;
39         }
40     }
41     
42     return LofPS;
43 }
44 
45 
46 int KMPsearch(string haystack, string needle) {
47     
48     // 计算 needle 中所有前缀字符串[0...idx]各自的真实前缀且是真实后缀的最长长度。
49     vector<int> tmp(needle.size());
50     LofPS = tmp;
51     
52     LofPS = computePrefixSuffix(needle);    
53     
54     int i = 0 ;
55     int k = 0;
56 
57     while (i < haystack.size() && k < needle.size()) {
58         if (haystack[i] == needle[k]) {
59             i++;
60             k++;
61             continue;
62         }
63         
64         if (LofPS[k-1] != 0) {
65             k = LofPS[k-1];
66             continue;
67         }
68         
69         if (haystack[i] == needle[0]) {
70             k = 1;
71             i++;
72         }else{
73             k = 0;
74             i++;
75         }
76     }
77 
78     if (k == needle.size()) {
79         return i - k;
80     }else{
81         return -1;
82     }
83 }

参考资料：

Searching for Patterns | Set 2 (KMP Algorithm), geeksforgeeks

The Knuth-Morris-Pratt Algorithm in my own words, jBoxer

Worked example in Knuth–Morris–Pratt algorithm, wikipedia

相关阅读:
PHP查找服务器某个目录下的文件
 CentOS添加用户，管理员权限
 centos图形化桌面安装过程
 正则表达式匹配查询
 Windows远程桌面多用户登录的问题
 VM虚拟机Android安装图形界面
 Ubuntu 根目录作用
 win7个性化不能换界面:此页面上的一个或多个设置已被系统管理员禁用,关机里的切换用户和锁定为灰色
 springboot 使用 jedis 连接 Redis 数据库
 JAVA 中 Map 与实体类相互转换的简单方法
原文地址：https://www.cnblogs.com/TonyYPZhang/p/5077279.html