• 后缀数组


    后缀数组个人感觉的确有点复杂,看了挺久的,听说后缀数组是一种神仙操作,忘记在哪听到这个就学了一下

    学习博客:https://www.cnblogs.com/victorique/p/8480093.html

    什么是后缀数组

    我们先看几条定义:

    子串

    在字符串s中,取任意i<=j,那么在s中截取从i到j的这一段就叫做s的一个子串

    后缀

    后缀就是从字符串的某个位置i到字符串末尾的子串,我们定义以s的第i个字符为第一个元素的后缀为suff(i)

    后缀数组

    把s的每个后缀按照字典序排序,

    后缀数组sa[i]就表示排名为i的后缀的起始位置的下标

    而它的映射数组rk[i]就表示起始位置的下标为i的后缀的排名

    简单来说,sa表示排名为i的是啥,rk表示第i个的排名是啥

    一定要记牢这些数组的意思,后面看代码的时候如果记不牢的话就绝对看不懂

    后缀数组的思想

    先说最暴力的情况,快排(n log n)每个后缀,但是这是字符串,所以比较任意两个后缀的复杂度其实是O(n),这样一来就是接近O(n^2 log n)的复杂度,数据大了肯定是不行的,所以我们这里有两个优化。

    ps:本文中的^表示平方而不是异或

    倍增

    首先读入字符串之后我们现根据单个字符排序,当然也可以理解为先按照每个后缀的第一个字符排序。对于每个字符,我们按照字典序给一个排名(当然可以并列),这里称作关键字。

    havana1

    接下来我们再把相邻的两个关键字合并到一起,就相当于根据每一个后缀的前两个字符进行排序。想想看,这样就是以第一个字符(也就是自己本身)的排名为第一关键字,以第二个字符的排名为第二关键字,把组成的新数排完序之后再次标号。没有第二关键字的补零。

    havana2

    既然是倍增,就要有点倍增的样子。接下来我们对于一个在第i位上的关键字,它的第二关键字就是第(i+2)位置上的,联想一下,因为现在第i位上的关键字是suff(i)的前两个字符的排名,第i+2位置上的关键字是suff(i+2)的前两个字符的排名,这两个一合并,不就是suff(i)的前四个字符的排名吗?方法同上,排序之后重新标号,没有第二关键字的补零。同理我们可以证明,下一次我们要合并的是第i位和第i+4位,以此类推即可……

    ps:本文中的“第i位”表示下标而不是排名。排名的话我会说“排名为i”

    havana3

    那么我们什么时候结束呢?很简单,当所有的排名都不同的时候我们直接退出就可以了,因为已经排好了。

    显然这样排序的速度稳定在(log n)

    基数排序

    如果我们用快排的话,复杂度就是(n log^2 n) 还是太大。

    这里我们用一波基数排序优化一下。在这里我们可以注意到,每一次排序都是排两位数,所以基数排序可以将它优化到O(n)级别,总复杂度就是(n log n)。

    介绍一下什么是基数排序,这里就拿两位数举例

    我们要建两个桶,一个装个位,一个装十位,我们先把数加到个位桶里面,再加到十位桶里面,这样就能保证对于每个十位桶,桶内的顺序肯定是按个位升序的,很好理解。

    题目链接:https://www.luogu.org/recordnew/show/17637546

    看代码:

    #include<iostream>
    #include<algorithm>
    #include<cstdio>
    #include<cstring>
    using namespace std;
    typedef long long LL;
    const LL maxn=1e6+50;
    char s[maxn];//存储输入的字符串
    int y[maxn],x[maxn],c[maxn],sa[maxn],rk[maxn],height[maxn],wt[30];
    int n,m;
    void putout(int x)
    {
        if(!x)
        {
            putchar(48);
            return ;
        }
        int l=0;
        while(x) wt[++l]=x%10,x/=10;
        while(l) putchar(wt[l--]+48);
    }
    void get_SA()
    {
        for(int i=1;i<=n;i++) ++c[x[i]=s[i]];//以字符的ASCII码为下标
        //c数组是桶  x[i]是第i个元素的关键字  也就是存每个关键字有多少个
        for(int i=2;i<=m;i++) c[i]+=c[i-1];
        //做c的前缀和,我们就可以得出每个关键字最多是在第几名
    
        for(int i=n;i>=1;i--) sa[c[x[i]]--]=i;
    //    for(int i=1;i<=n;i++) cout<<sa[i]<<" ";
    //    cout<<endl;
    //    for(int i=1;i<=n;i++) sa[c[x[i]]--]=i;
    
        //为什么要从后往前呢?  因为我们按照单个字符比较大小  那么很有可能会有相同的字符  那么这些
        //相同的字符怎么排名呢? 就先按照越在后的排名越往后的规则来
    
        //前面已经说过 sa[i]说的是排第i的谁
        /**
        上面的代码已经按照单个字符排好序了 其实也就是按照了每个后缀数组的第一关键字排好序了
        */
        for(int k=1;k<=n;k<<=1)//这里是倍增
        {
            int num=0;
            for(int i=n-k+1;i<=n;i++) y[++num]=i;
            //y[i]表示第二关键字排名为i 的数  第一关键字的位置
            //第n-k+1到第n位是没有第二关键字的  所以排在最前面
            for(int i=1;i<=n;i++) if(sa[i]>k) y[++num]=sa[i]-k;
            //排名为i的数 在数组中是否在第k位以后
            //如果满足(sa[i]>k)  那么它可以作为别人的第二关键字  就把它的第一关键字的位置添加进y 就行了
            //所以i枚举的是第二关键字的排名 第二关键字靠前的先入队
    
            for(int i=1;i<=m;i++) c[i]=0;
            //初始化c桶
    
            for(int i=1;i<=n;i++) ++c[x[i]];
            //因为上一次循环已经算出了这次的第一关键字 所以直接加就行了
    
    
            for(int i=2;i<=m;i++) c[i]+=c[i-1];//第一关键字排名为1~i的数有多少个
    
    
            for(int i=n;i>=1;i--) sa[c[x[y[i]]]--]=y[i],y[i]=0;
    //        for(int i=1;i<=n;i++) sa[c[x[y[i]]]--]=y[i],y[i]=0;
    
    //        for(int i=1;i<=n;i++) cout<<sa[i]<<" ";
    //        cout<<endl;
            //因为y的顺序是按照第二关键字的顺序来排的
            //第二关键字靠后的,在同一个关键字桶中排名越靠后
            //基数排序
            swap(x,y);
            //所以现在y[i] 存的是第i个元素的关键字
    
            //这里不用想太多 因为要生成新的x 时  要用到旧的   就把旧的复制下来  没别的意思
            x[sa[1]]=1;
            num=1;
            for(int i=2;i<=n;i++)
                x[sa[i]]=(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])?num:++num;
            //因为sa[i]已经排好序了  所以可以按排名枚举 生成下一次的关键字
            if(num==n) break;
            m=num;
            //这里不用那个122了  因为都有了新的编号
        }
    //    for(int i=1;i<=n;i++) putout(sa[i]),putchar(' ');
        cout<<sa[1];
        for(int i=2;i<=n;i++)
        {
            cout<<" "<<sa[i];
        }
        cout<<endl;
    }
    int main()
    {
    //    cout<<(int)'0'<<endl;
    //    cout<<(int)'z'<<endl;
        gets(s+1);//从1开始读入
        n=strlen(s+1);//得到字符串的长度
        m=122;//m表示字符个数  最小的数字0是48  最大的是字母z  是122
        get_SA();
        return 0;
    }

    下面是经常和后缀数组一起用的height数组:

    个人感觉,上面说的一大堆,都是为heightheight数组做铺垫的,heightheight数组才是后缀数组的精髓、

    先说定义

    ii号后缀:从ii开始的后缀

    lcp(x,y)lcp(x,y):字符串xx与字符串yy的最长公共前缀,在这里指xx号后缀与与yy号后缀的最长公共前缀

    height[i]height[i]:lcp(sa[i],sa[i1])lcp(sa[i],sa[i−1]),即排名为ii的后缀与排名为i1i−1的后缀的最长公共前缀

    H[i]H[i]:height[rak[i]]height[rak[i]],即ii号后缀与它前一名的后缀的最长公共前缀

    性质:H[i]H[i1]1H[i]⩾H[i−1]−1

    证明引自远航之曲大佬

    update in 2019.3.28

    在复习的时候我发现这里的证明有一个跳点,包括论文中的证明也有一点不严谨的地方

    下面两处画红线的地方均没有证明"suffix(k+1)"与"i前一名的后缀之间的关系",实际上这两者之间的关系是:他们的lcp至少为h[i - 1] - 1。可以用反证法证明,在此不再赘述

    能够线性计算height[]的值的关键在于h[](height[rank[]])的性质,即h[i]>=h[i-1]-1,下面具体分析一下这个不等式的由来。

    我们先把要证什么放在这:对于第i个后缀,设j=sa[rank[i] – 1],也就是说j是i的按排名来的上一个字符串,按定义来i和j的最长公共前缀就是height[rank[i]],我们现在就是想知道height[rank[i]]至少是多少,而我们要证明的就是至少是height[rank[i-1]]-1。

    好啦,现在开始证吧。

    首先我们不妨设第i-1个字符串(这里以及后面指的“第?个字符串”不是按字典序排名来的,是按照首字符在字符串中的位置来的)按字典序排名来的前面的那个字符串是第k个字符串,注意k不一定是i-2,因为第k个字符串是按字典序排名来的i-1前面那个,并不是指在原字符串中位置在i-1前面的那个第i-2个字符串。

    这时,依据height[]的定义,第k个字符串和第i-1个字符串的公共前缀自然是height[rank[i-1]],现在先讨论一下第k+1个字符串和第i个字符串的关系。

    第一种情况,第k个字符串和第i-1个字符串的首字符不同,那么第k+1个字符串的排名既可能在i的前面,也可能在i的后面,但没有关系,因为height[rank[i-1]]就是0了呀,那么无论height[rank[i]]是多少都会有height[rank[i]]>=height[rank[i-1]]-1,也就是h[i]>=h[i-1]-1。

    第二种情况,第k个字符串和第i-1个字符串的首字符相同,那么由于第k+1个字符串就是第k个字符串去掉首字符得到的,第i个字符串也是第i-1个字符串去掉首字符得到的,那么显然第k+1个字符串要排在第i个字符串前面,要么就产生矛盾了。同时,第k个字符串和第i-1个字符串的最长公共前缀是height[rank[i-1]],那么自然第k+1个字符串和第i个字符串的最长公共前缀就是height[rank[i-1]]-1。

    到此为止,第二种情况的证明还没有完,我们可以试想一下,对于比第i个字符串的字典序排名更靠前的那些字符串,谁和第i个字符串的相似度最高(这里说的相似度是指最长公共前缀的长度)?显然是排名紧邻第i个字符串的那个字符串了呀,即sa[rank[i]-1]。也就是说sa[rank[i]]和sa[rank[i]-1]的最长公共前缀至少是height[rank[i-1]]-1,那么就有height[rank[i]]>=height[rank[i-1]]-1,也即h[i]>=h[i-1]-1。

    void get_height(int len)
    {
        for(int i=1;i<=len;i++)
        {
            rk[sa[i]]=i;
        }
        int k=0;
        for(int i=1;i<=len;i++)
        {
            if(rk[i]==1) continue;
            if(k) --k;
            int j=sa[rk[i]-1];
            while(j+k<=len&&i+k<=len&&s[i+k]==s[j+k]) ++k;
            height[rk[i]]=k;
        }
        return ;
    }
    当初的梦想实现了吗,事到如今只好放弃吗~
  • 相关阅读:
    qt获取本机ip
    qt获取本机用户名
    QT获取主机名称
    关于代码控制管理的一些想法
    QLabel添加Click信号
    QT中,控件显示不下,用...表示
    qt获取屏幕
    Matlab boxplot for Multiple Groups(多组数据的箱线图)
    Linux Bash代码 利用for循环实现命令的多次执行
    DataProcessing
  • 原文地址:https://www.cnblogs.com/caijiaming/p/10608902.html
Copyright © 2020-2023  润新知