今天彻底研究了一下后缀数组的倍增算法,主要是代码部分,确实不好理解。
主要就是利用倍增的思想,比如说,一个长度为8的字符串,我们先对长度为1的子串进行排名,然后利用这个信息,对长度为2的字符串进行排名,再排4、8……
一个常见的应用是求height,定义height[i]为排名第i的后缀与排名第i-1的后缀的最长公共前缀。
我们设h[i]=height[rank[i]],不难发现h[i]>=h[i-1]-1,即height[rank[i]]>=height[rank[i-1]],那么,我们只要按照rank的顺序,利用之前的信息做一遍就行了。
代码:
#include<cstdio> #include<iostream> #define N 15010 using namespace std; int n,m=26,s[N],sa[N],t1[N],t2[N],c[N]; void DA(){ //先按长度为1的子串基数排序 int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;~i;i--) sa[--c[x[i]]]=i; for(int k=1,p=0;k<=n;k*=2,m=p,p=0){ for(int i=n-k;i<n;i++) y[p++]=i;//长度不足l的优先排序 for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;~i;i--) sa[--c[x[y[i]]]]=y[i];//基数排序 swap(x,y),p=1,x[sa[0]]=0; for(int i=1;i<n;i++)//有相同的x值也相同 if(y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k]) x[sa[i]]=p-1; else x[sa[i]]=p++; if(p>=n) break; } } int rk[N],ht[N]; void calheight() { for(int i=0;i<n;i++) rk[sa[i]]=i; for(int i=0,j,k=0;i<n;ht[rk[i++]]=k){ if(!rk[i]) continue; j=sa[rk[i]-1],k=k?k-1:0; while(i+k<n&&j+k<n&&s[i+k]==s[j+k]) k++; }ht[0]=0; } int main(){ char ch[N]; scanf("%d%s",&n,ch); for(int i=0;i<n;i++) s[i]=ch[i]-'a'; DA();calheight(); for(int i=0;i<n;i++)printf("%d ",sa[i]+1);printf(" "); for(int i=0;i<n;i++)printf("%d ",ht[i]); return 0; }