• 后缀数组学习笔记


    我是蒟蒻,这个东西机房人均都会了,只有我还不会,只能爬了。

    后缀数组的实现

    倍增算法

    我们可以先比较每一个后缀的第一个字符,然后我们发现在进行下一步比较的时候,就可以利用前一步得到的进行比较了。

    这里边体现了倍增的思路,其实放一张比较经典的图就可以明白了:

    基数排序

    我们可以发现,在上述算法的执行过程中,使用的是双关键词排序,这个东西是可以被基数排序优化到 (O(n)) 的。

    思路将关键词按重要程度从低到高扔入桶中,再取出来。这样就可以保证在前面的高重要度的关键词相同时,低重要度的相对位置已经正确了。

    然后进行两遍即可。

    Waring

    由于要满足空间复杂度不能过大,所以后缀数组中的基数排序是以一种比较奇怪的方式实现的(在我个人看来),所以下面有两种方案:

    1. 自己YY出一种满足时空间复杂度的倍增写法。
    2. 全文背诵。

    代码如下

    #include<bits/stdc++.h>
    using namespace std;
    const int N=1e6+5;
    namespace Suffix_A
    {
    	int n,m;
    	int rk[N],sa[N];
    	int buc[N],tp[N];
    	void Radix_sort()
    	{
    		for(int i=1;i<=m;++i) buc[i]=0;
    		for(int i=1;i<=n;++i) buc[rk[i]]++;
    		for(int i=1;i<=m;++i) buc[i]+=buc[i-1];
    		for(int i=n;i>=1;--i) sa[buc[rk[tp[i]]]--]=tp[i];
    	}
    	void main(char s[])
    	{
    		n=strlen(s+1),m='z';
    		for(int i=1;i<=n;++i) rk[i]=s[i],tp[i]=i;
    		Radix_sort();
    		for(int len=1;len<=n;len<<=1)
    		{
    			int tmp=0;
    			for(int i=n-len+1;i<=n;++i) tp[++tmp]=i;
    			for(int i=1;i<=n;++i) if(sa[i]>len) tp[++tmp]=sa[i]-len;
    			Radix_sort();
    			swap(rk,tp),tmp=rk[sa[1]]=1;
    			for(int i=2;i<=n;++i)
    			{
    				if(tp[sa[i-1]]==tp[sa[i]]&&tp[sa[i-1]+len]==tp[sa[i]+len])
    				rk[sa[i]]=tmp;
    				else rk[sa[i]]=++tmp;
    			}
    			if(n==(m=tmp)) break;
    		}
    	}
    }
    int n;
    char s[N];
    int main()
    {
    	scanf("%s",s+1);
    	n=strlen(s+1);
    	Suffix_A::main(s);
    	for(int i=1;i<=n;++i) printf("%d ",Suffix_A::sa[i]);
    	printf("
    ");
    	return 0;
    }
    

    DC3

    咕咕咕

    SA-IS

    咕咕咕

    后缀数组的使用

    LCP 最长公共前缀

    这个东西全称叫做 ( ext{Longest Common Prefix}) 。他在我们的后缀数组中有一些奇妙的性质。

    LCP Lemma

    [egin{array}{c} ext{LCP}(sa_i,sa_j)=min( ext{LCP}(sa_i,sa_k), ext{LCP}(sa_k,sa_j)) & kin[i,j] end{array} ]

    这个东西比较显然,大家自己感性理解一下就可以了。

    LCP Theorem

    [ ext{LCP}(sa_i,sa_j)=min_{k=i+1}^{j}( ext{LCP}(sa_{k-1},sa_k)) ]

    由上面那个东西易得

    height 数组的定义

    我们设 (ht_i) 表示为已经排好序的第 (s_i) 个串和第 (s_{i-1}) 个串的 ( ext{lcp}) ,即 (ht_i= ext{lcp}(sa_{i-1},sa_i)) ,其中 (ht_1=0)

    那么由 ( ext{LCP Thoerem}) 可以得到

    [ ext{LCP}{sa_i,sa_j}=min_{k=i+1}^j ht_k ]

    这样就变成了一个 ( ext{RMQ}) 问题,我们现在的目标就是要快速求出 (ht_i)

    关于 height 的一个引理

    [ht_{rk_i}ge ht_{rk_{i-1}}-1 ]

    证明(直接贴一波 ( ext{OI Wiki}) 的):

    求解 height

    利用引理暴力求解。

    for(int i=1,len=0;i<=n;++i)
    {
    	if(len) len--;
    	while(s[i+len]==s[sa[rk[i]-1]+len]) len++;
    	ht[rk[i]]=len;
    }
    

    height 的应用

    求 LCP

    就是前面说的,转化为 ( ext{RMQ}) 问题。

    比较子串的大小关系

    若需要比较的是 (A=S[a...b])(B=s[c...d])

    ( ext{LCP}(a,c)ge min(|A|,|b|)) ,则 (A<BLongleftrightarrow |A|<|B|)

    否则,(A<BLongleftrightarrow rk_a<rk_c)

    不同子串的数目

    转化到 ( ext{SA}) 上就是求不同前缀的个数。

    所以答案易得为:

    [ans=frac{n(n+1)}{2}-sum_{i=2}^n height_i ]

    出现至少 k 次的子串的最大长度

    出现至少 (k) 次意味着后缀数组中有至少连续 (k) 个后缀的 ( ext{LCP}) 是这玩意。

    求出每相邻 (k-1)(height) 的最小值,再在最小值中求最大值即可。

    出现至少 k 次的不重叠的子串的最大长度

    出这个应用纯粹是模拟赛里的毒瘤题。。。(好吧,对于字符串的神们来说这根本不毒瘤。

    (Link)

    参考文章

    后缀数组 (SA)——( ext{OI Wiki})

    浅谈后缀数组算法——( ext{blackfrog})

    其他字符串算法学习笔记(不定期更新)——( ext{Flying2018})

  • 相关阅读:
    js技巧收集(200多个)
    Ajax跨域访问的问题?
    最新软件下载提供列表
    美食家家V1.1[强力推荐]
    吉他和弦帮手以及曲子下载
    网译(在线中文英语翻译软件)[强力推荐]
    网上电子婚宴请柬
    吉他和弦帮手v2.3注册机
    1万多个英语单词mp3下载
    菜谱大全数据库下载(ACCESS)
  • 原文地址:https://www.cnblogs.com/Point-King/p/14040230.html
Copyright © 2020-2023  润新知