串的模式匹配的一般方法如算法4.5(在bo4-1.cpp 中)所示:由主串S 的第pos 个字
符起,检验是否存在子串T。首先令i 等于
pos(i 为S 中当前待比较字符的位序),j 等于
1(j 为T 中当前待比较字符的位序),如果S 的
第i 个字符与T 的第j 个字符相同,则i、j 各
加1 继续比较,直至T 的最后一个字符(找
到)。如果还没到T 的最后一个字符,比较就
出现了不同(没找到),则令i 等于pos+1,j 等
于1,由pos 的下一个位置起,继续查找是否
存在子串T。这个过程如图410 所示。
在算法4.5 中,主串S 的指针i 总要回溯,特别是在如图410 所示的有较多字符匹
配而又不完全匹配的情况下,回溯得更多。这时,主串S 的一个字符要进行多次比较,显
然效率较低。
如果能使主串S 的指针i 不回溯,在有些情况下效率则会大为提高。这是可以做到
的,因为主串S 中位于i-1,i-2,⋯ 的字符恰和子串T 中位于j-1,j-2,⋯ 的字符相
等,如图410 所示。仍以图410 为例,当S 和T 在第i(终值)个字符处字符不相符
时,i 仍保持在终值处不动,j 回溯到第1 个字符与i 的当前字符继续进行比较。j 回溯到第
几个字符是由子串T 的模式决定的。算法4.7 根据子串T 生成的next 数组指示j 回溯到第
几个字符。next 数组的意义是这样的:如果next[j]=k,当子串T 的第j 个字符与主串S 的
第i 个字符“失配”时,S 的第i 个字符继续与T 的第k 个字符进行比较,T 的第k 个字符
之前的那些字符均与S 的第i 个字符之前的字符匹配。以教科书中图4.5 为例,设子串T
为“abaabcac”。当T 的第5 个字符与S 的第i 个字符失配时,S 的第i-1 个字符一定是a,
和T 的第4 个字符相等。它和T 的第1 个字
符相等。这样,S 的第i 个字符和T 的第2 个
字符开始比较即可。所以, 对于模式串
“abaabcac”,next[5]=2,详见图411。
算法4.7 求子串的数组next[]还有可改
进之处。以图411 为例:如果T 的第5 个
字符与S 的第i 个字符失配,则S 的第i 个字
符一定不是b。这样,尽管S 的第i-1 个字符
是a,和T 的第1 个字符相等,但S 的第i 个字符肯定和T 的第2 个字符b 不相等。所以
可令next[5]=1,使S 的第i 个字符和T 的第1 个字符开始比较。这样使得模式串又向右
移了一位,提高了匹配的效率。算法4.8 是改进的求数组next[](在算法4.8 中的形参是
nextval[])的算法。
算法4.6 是改进的模式匹配算法。它利用算法4.7 或算法4.8 求得的数组next[],提
高了算法的效率。algo4-1.cpp 是实现改进的模式匹配算法的程序。函数get_next()和
get_nextval()分别求得给定的模式串的数组next[]和nextval[],函数Index_KMP()利用数
组next[]或nextval[]求出模式串在主串中的位置。其中,next[j]=0,并不是将主串的当前
字符与模式串的第0 个字符进行比较(模式串也没有第0 个字符),而是主串当前字符的下
一个字符与模式串的第1 个字符进行比较。
// algo4-1.cpp 实现算法4.6、4.7、4.8的程序 #include"c1.h" #include"c4-1.h" #include"bo4-1.cpp" void get_next(SString T,int next[]) { // 求模式串T的next函数值并存入数组next。算法4.7 int i=1,j=0; next[1]=0; while(i<T[0]) if(j==0||T[i]==T[j]) { ++i; ++j; next[i]=j; } else j=next[j]; } void get_nextval(SString T,int nextval[]) { // 求模式串T的next函数修正值并存入数组nextval。算法4.8 int i=1,j=0; nextval[1]=0; while(i<T[0]) if(j==0||T[i]==T[j]) { ++i; ++j; if(T[i]!=T[j]) nextval[i]=j; else nextval[i]=nextval[j]; } else j=nextval[j]; } int Index_KMP(SString S,SString T,int pos,int next[]) { // 利用模式串T的next函数求T在主串S中第pos个字符之后的位置的KMP算法。 // 其中,T非空,1≤pos≤StrLength(S)。算法4.6 int i=pos,j=1; while(i<=S[0]&&j<=T[0]) if(j==0||S[i]==T[j]) // 继续比较后继字符 { ++i; ++j; } else // 模式串向右移动 j=next[j]; if(j>T[0]) // 匹配成功 return i-T[0]; else return 0; } void main() { int i,*p; SString s1,s2; // 以教科书算法4.8之上的数据为例 StrAssign(s1,"aaabaaaab"); printf("主串为"); StrPrint(s1); StrAssign(s2,"aaaab"); printf("子串为"); StrPrint(s2); p=(int*)malloc((StrLength(s2)+1)*sizeof(int)); // 生成s2的next数组空间 get_next(s2,p); // 利用算法4.7,求得next数组,存于p中 printf("子串的next数组为"); for(i=1;i<=StrLength(s2);i++) printf("%d ",*(p+i)); printf(" "); i=Index_KMP(s1,s2,1,p); // 利用算法4.6求得串s2在s1中首次匹配的位置i if(i) printf("主串和子串在第%d个字符处首次匹配 ",i); else printf("主串和子串匹配不成功 "); get_nextval(s2,p); // 利用算法4.8,求得next数组,存于p中 printf("子串的nextval数组为"); for(i=1;i<=StrLength(s2);i++) printf("%d ",*(p+i)); printf(" "); printf("主串和子串在第%d个字符处首次匹配 ",Index_KMP(s1,s2,1,p)); }
代码的运行结果如下:
/* 主串为aaabaaaab 子串为aaaab 子串的next数组为0 1 2 3 4 主串和子串在第5个字符处首次匹配 子串的nextval数组为0 0 0 0 4 主串和子串在第5个字符处首次匹配 Press any key to continue */