kmp算法核心是对于next数组的理解,next数组个人理解就是
next[i]代表前i之前的子串中,开头的串和结尾的串能匹配的最大个数,比如给出abacaa
设next[0]=-1;由题next[1]=0,求next[2]时候,就在str[2]之前的串ab里面找,看开头和结尾是否有可以匹配的,没有则=0
同理next[3]在aba里找,因为ab!=ba,但是str[0]=str[2]所以next[3]=1
同理下面的都可求,所以总结:
next就是当前匹配失败后,模式串需要跳回的最大位置,也就是移动的最短距离...下面给出官方的解释以及代码
next[] 数组的定义为(相对c++):
模式串P开头的任意个字符,把它称为前缀子串,如p0p1p2…pm-1。在P的第i位置的左边,取出k个字符,称为i位置的左子串,即pi-k+1... pi-2 pi-1 pi。求出最长的(最大的k)使得前缀子串与左子串相匹配称为,在第i位的最长前缀串。第i位的最长前缀串的长度k就是模板串P在位置i上的特征数n[i]特征数组成的向量称为该模式串的特征向量。
next[0]= -1;
next ( i>0 ) 为: 对于模式串 S[], 我们用 S[i, j] 表示从 S[] 中 i 到 j 这一段子串。 找一个 k(0< k< i ) 使得,S[0, k-1] 与 S[i- k, i-1] 完全匹配,并且 k 的值最大, 那么 next= k; 如果不存在完全匹配的,next= 0;
0 1 2 3 4 5 6 7
如对于串 a b a a b c a c , next[0]= -1, 显然 next[1]= 0;
i== 2 时, 满足 0< k< 2 的 k 只有 1, 而 S[0, 0] 与 S[1,1] 不完全匹配,所以 next[2]= 0;
i== 3 时, 满足 0< k< 3 的 k 有 1, 2, S[0,1] 'ab' 与 S[1,2] 'ba' 不完全匹配,S[0,0] 'a' 与 S[2,2] ’a' 完全匹配, 故 next[3]= 1;
i== 4 时, S[0,2] ’aba' != S[1,3] 'baa' S[0,1] 'ab'!= S[2,3] 'aa' S[0,0]== S[3,3],故 next[4]= 1;
同理: next[5]= 2, next[6]= 0, next[7]= 1;
可以用递推的方法求得 next[] 数组
假设 next= k, 则有 S[0, k-1]== S[i-k, i-1], 如何求 next[i+1]?
1). 如果 S[k]== S[i+1], 则有 S[0,k]== S[i-k, i], 可以肯定,不可能存在 x> k, 使得 S[0, x]== S[i-x, i] 故 next[i+1]= next+ 1= k+ 1;
2). 如果 S[k]!= S[i+1], 可看成是一个模式匹配问题,相当于 S[len(S)-K, len(S)]为主串, S[0, len(S)] 为模式串的模式匹配,这时应将模式串向右滑动 next[k] 个字符, 再比较 S[ next[k] ]与 S[i+1], 如果相等, 则 next[i+1]= next[ next[k] ]+ 1, 如此继续。
i=0;next[0]=-1;j=-1;
while(i<len){
if(j==-1||s[i]==s[j])
{
++i;
++j;
next[i]=j;
}
else j=next[j];}
上面介绍了next数组的求法以及意义,接下来介绍他的用法
str是待匹配的子串,text是模式串,m是模式串的长度
k=0;//用于记录str最长能够有前k位是text的前i+1个字符的后缀
for (i=0;i<m;i++)
{
while (k && text[i]!=str[k]) k=next[k];//发现不能匹配的时候就把str往后挪
if (text[i]==str[k]) k++;
if (k==n) printf("在位置%d处找到一个匹配\n",i+1-n);
}