后缀自动机
这几天都在听lzh大神讲后缀自动机,感觉太神了,这东东能动态维护后缀数组,也就是说它能知道以某个位置为末尾的所有后缀,现在让我这蒟蒻来总结一下。
首先这是一个有限状态自动机,每个结点都能接收一些状态,注意是一些状态,在这里是后缀自动机,所以每个结点都能接收一些字符串(不一定为后缀),在后缀自动机中,边是代表字母。从源点出发,沿着实边能走到某个结点,这个结点就能接收该路径所代表的字符串。如果当前某个点为接收态,那么它能接收的字符串就是当前后缀。例如:
1接收的是""(空)
2: "a"
3: "ab"、"b"
4: "abc"、"ac"、"bc"
以上只是举例,并不保证能构造这样的字符串。
我们规定每个结点都有一个par指针,如果某个节点是接收态,那么它的par也是接收态。这就保证沿着par往上跳就能把所有后缀找出来(接收所有的后缀)
下面讲一下如何建后缀自动机。
对于每一个还要记住到达该点的最长路径长度len,全局变量
指针root(原点,也代表空),last(当前字符串的最长后缀的接收点)。下面举abadd为例子。(实边为点连出去的边,虚边为par)(用u-ch-v表示u连出一条ch边到v)
首先,只有root,last=root,root为接收态,(len(root)=0)
接着插入a,root-a-1.
1为接收态,(len(1)=1),last=1(其实last肯定是一个接收态,然后沿par往上跳都是当前的接收态,其他的都不是)。
接着插入b,1-b-2,1往上跳到root,root-b-2
2的par为root,因为root是接收态,而1不是接收态,(len(2)=2),由图可以看出某个点i能接收的后缀长度为((len(par), len(i)]),这个之后会有用。
接着插入a,2-a-3,2往上跳到root,发现root-a-1,而且(len(root)+1=len(1)),也就是说1只接收一个字符串(a),那么只要把3的par指向1,把1变成接收态即可,(这就相当于在root接收的后缀后面加多了一个a,变成当前后缀),然后就不再往上跳(就算有par也不跳). (len(3)=3)
接着插入d,3-d-4, 3往上跳到1,1-d-4,1往上跳到root,root-d-4
4的par为root,(len(4)=4)
接着插入d, 4-d-5, 4往上跳到root,发现root-d-4,且(len(root)+1 eq len(4)),也就是说4不止接收一个字符串,如果把5的par指向4,则会使4中一些不是当前后缀当成当前后缀(其实在这个例子中,4中除了d为当前后缀,其它都不是当前后缀),于是新建一个节点6,把4拆成4和6,使得6能接收([len(4->par)+1, len(4->par)+1])的后缀,而原来的4只能接收((len(4->par)+1, len(4)]),(注意:这里只是刚好这个例子中root=4->par,这是有可能不等的)这里的6有点像上面那种情况(因为6只接收原来4中一个字符d的部分),所以4连出的边6也要连出。
因为root的par有可能连了一条d边到4(肯定会有一条d边,只是不知道是不是4,因为root比他的par能接收的字符串要长,且具有相同后缀,如果root加了d,他的par也有加上d,所以肯定有一条d边)。那么就要root->par-d-6,让6接收原来4中一个字符d的部分。然后一直往上跳,直到不是连向4。而那个点连向的正好就是4的par。下面会详细解释。
上图红色边为删掉的边
至于为什么直到不是连向4时,那个点连向的正好是4的par呢?见下图
设上述的那个点为p,向q连出d边,那么(len(p)+1=len(q)),因为q是4的par,如果(len(p)+1
eq len(q)),那么添加4时,4的par就不会连向q。
如果像这个例子,root已经没有par了,那么就把6的par指向root即可。
因为4失去了原本6那部分,因为要保证从4出发跳par还能找出abad的后缀,所以4的par=6,然后5的par=6(相当于第二种情况,6只接收一个字符串)
经过这样的处理,5和6就是最终的接收态,last=5,这就避免了重复。
代码时间
void insert(int num)
{
node *endd=mem++; //新加的点
node *cur=last; //之前的最长接收态
endd->len=last->len+1;
for (; cur && !cur->son[num]; cur=cur->par) cur->son[num]=endd; //第一种情况
if (!cur) endd->par=root;
else
if (cur->len+1==cur->son[num]->len) endd->par=cur->son[num]; //第二种情况
else
{
node *ed=mem++; //拆点
node *tmp=cur->son[num];
*ed=*cur->son[num]; //因为连出边和par都一样,直接复制信息就好了
ed->len=cur->len+1;
endd->par=tmp->par=ed;
//因为ed本来是tmp的一部分,tmp现已失去了接收ed那部分,所以要把tmp的par=ed。而endd的par=ed是因为这相当于第二种情况。
for (; cur && cur->son[num]==tmp; cur=cur->par)
cur->son[num]=ed;
//把原本连向tmp的属于ed的那一部分转移到ed
}
last=endd;//更新最长接收态
}
终于,到了时空复杂度的分析
对于空间复杂度,插入一个字母,最多只会新加两个点,所以点的空间复杂度为(O(2n))
至于边的空间复杂度,对于每一个点(p),连向p的点中,只有一个点的(len)等于(len(p)-1),这里就有(2n)条边。对于某一条边((u, v)),(len(u)+1<len(v)),那么从root沿最长路到(u),(v)沿最长路到一个接收态,那么这整条路径就是一个后缀,而且这路径上只有一条(len(u)+1<len(v))的边,(就是上述那条)。当然一条这样的边有可能对应多个后缀。后缀最多只有(n)个,那么最多只有(n)条这样的边。所以边的空间复杂度为((3n))
至于时间复杂度,可以像AC自动机那样分析,时间复杂度为(O(n))