其实上次在写 BM 算法的原理时,应该把如何实现"好后缀"的预处理一起写上,只是因为急着出去,没有写清楚,只是一带而过,现在把预处理们仔细写一下,希望和对字符串处理技术感兴趣的朋友们探讨。当然,对于 BM 算法还有许多需要思考的,比如证明它的时间复杂度最坏是 O(m)等等问题,并不是一句话就能说明白的。
在上一篇文章中(精确字符串匹配(BM算法))提到了 L(i),它是用来存储 t' 最靠右位置 j 的,假设用 t 表示 P[i..n], t' 就是在 P 中重复出现 t 的一段。而 P 也需要向右移,使 L(i) 与 T 中的字符对应。
a a b c d a q f b c d e e b c d
在这里需要用到一个值 N(j),N(j)是 Zbox (精确字符串匹配(Zbox算法))的相反概念,且 N(j)= Z(n-j+1)。
求出了所有的 N(j) 之后,就可以利用它求 L(i) 了。
for i:=1 to n do L(i):=0 for j:=1 to n-1 do begin i := n-N(j)+1; L(i) := j; end; |
以上是预处理中 L(i) 的计算方法。下面写一下预处理中对 l(i)的计算方法。
l(i) 表示的是最长的 P[i..n] 的后缀的长度,同时这个后缀还要是 P 的前缀,如果不存在,l(i) 就是0。
结合 N(j),可以看出 l(i)=j, 使 N(j)=j的最大j值,且 j<=|P[i..n]|。
来自 <http://blog.chinaunix.net/uid-20338639-id-1964956.html>