• 对 SAM 和 PAM 的一点理解


    感觉自己学 SAM 的时候总有一种似懂非懂、云里雾里、囫囵吞枣、不求甚解的感觉,是时候来加深一下对确定性有限状态自动机的理解了。

    1. 从 SAM 的定义上理解:SAM 可以看作一种加强版的 Trie,它可以高度压缩一个字符串的子串信息,一条从根出发到终止结点的路径对应了原串的一个后缀,而任意一个从根出发的路径对应了原串一个子串。子串和从根出发的路径一一对应。在这种的理解下,每一个结点的含义并不是固定的,它到底对应哪个子串取决于那条路径是怎么到达它的;而边有着确定的含义。

    2. 从 Parent Tree 的角度去理解连边的含义:显然等价类的个数是 (Theta(n)) 级别的,并且两个不同等价类的 ( exttt{Endpos}) 集合要么无交集,要么相包含,因此可以建出一个由 ( exttt{Endpos}) 集合的包含关系连结而成的树——Parent Tree,它的连边——后缀链接,若是向下看,是在一个等价类的前面加上一个字符,从而分成若干的其他等价类;向上看,它是指向包含当前集合的最小的集合;而后缀自动机的连边是在一个等价类的后面加上一个字母,看看它会指向谁,显然对于同一个添上的字母,这个指向是唯一确定的。

    3. 从结点的含义去理解:虽然一个点它并不一定对应哪一个子串,但是它对应的若干子串一定有一个共同的 ( exttt{Endpos}),也就是说,若长的那个存在了,短的那些一定是它的子串;短的出现了,那么它向前一些一定是那些长的。由于上面的结论,"本质"不同的子串的个数是线性的,因此我们建立这样一个自动机,其中的每一个结点都对应了一种子串。这也是为什么 Parent Tree 的结点与 SAM 的结点一一对应。

    4. 关键在于上面的这些理解是同时成立的,可以把 Parent Tree 上获得的信息用作 SAM 信息的补充;两者相得益彰,互相成就。

    来看一道例题:P3975 [TJOI2015]弦论,大意是多次询问一个串的字典序第 (k) 小子串,分为要求本质不同和不要求本质不同的两种。

    显然我们只需要使用类似二叉查找树的那种方法就行了,因此问题转化为了求一个结点后面有多少种子串;如果要求本质不同,那么就在自动机上拓扑 DP 一下就行了,因为自动机会自动合并本质相同的子串;如果不要求呢?那么就需要结合第三种理解,我可以在后缀树上求出每个节点对应的子树内叶子节点出现次数的总和,显然这个就是这个结点的出现次数——一个等价类的出现次数等于它的孩子们出现次数的和,而叶子节点的出现次数一定是和 SAM 一起建出来的。而一个结点的后面的出现次数 (f_x = sze_x + sumlimits_{t:ch_x}f_t),这个由加法原理得到。这就引出了一个点的 ( exttt{Endpos}) 集合大小的另一个含义——若从根遍历到这个结点的路径,它究竟有多少种结束方式

    main():
    	for (int i = 1; i <= cnt; i++) c[len[i]]++;
    	for (int i = 1; i <= cnt; i++) c[i] += c[i - 1];
    	for (int i = 1; i <= cnt; i++) a[c[len[i]]--] = i;
    	for (int i = cnt; i; i--) if (t)
    		sze[fa[a[i]]] += sze[a[i]]; else sze[a[i]] = 1;
    	sze[1] = 0; for (int i = cnt; i; i--)
    	{
    		f[a[i]] = sze[a[i]]; for (int j = 0; j < 26; j++)
    			f[a[i]] += f[ch[a[i]][j]];
    	}
    

    这里提到一件争议: P2336 [SCOI2012]喵星球上的点名 这题 @fighter_OI 的题解下由两位金钩大佬提出了意见——一个说这个可以被卡到 (nsqrt n),一个说这个可以优化到 (nlog n);事实上,我认为这个已经是线性的了,不存在什么 (nsqrt n) 什么 (log) 的问题。我们看这样的代码:

    inline void update1(int x, int y)
    {
    	for (; x && las[x] != y; x = fa[x]) sze[x]++, las[x] = y;
    }
    
    inline void build()
    {
    .....blabla
    	tot = 0; for (int i = 1; i <= n; i++)
    	{
    		for (int j = 1, p = 1; j <= l1[i]; j++) update1(p = ch[p][s[++tot]], i);
    		for (int j = 1, p = 1; j <= l2[i]; j++) update1(p = ch[p][s[++tot]], i);
    	}
    
    

    虽然这样的代码看似是在暴力,看似可以被卡,但是实际上,它只是补充不漏地遍历了每个子串的所有“本质”不同子串,“不同字串” 的个数又是线性的,所以总的复杂度是 (sum|S_i|),依然是线性的。甚至改成这样也一样能过:

    inline void update1(int x, int y)
    {
    	for (; x; x = fa[x]) if (las[x] != y) sze[x]++, las[x] = y;
    }
    
    

    事实证明,对于比较难以维护的信息,我们完全可以遍历一个串的每个“子串”来暴力添加上信息,这么做的复杂度依然是和输入量呈线性的。

    UPD:下面的这种写法是错误的,是 (O(frac 14 n^2)) 级别的(用 000000001111111这样的串卡掉),而前面的写法是线性的。

    as 0.4123
  • 相关阅读:
    RabbitMQ:六、网络分区
    RabbitMQ:五、高阶
    RabbitMQ:四、跨越集群
    数据结构:红黑树
    RabbitMQ:三、进阶
    面对对象多态的异常
    面向对象三大特征---多态
    面对对象继承的优点和缺点
    面对对象当中的代码块
    面对对象this关键字
  • 原文地址:https://www.cnblogs.com/Linshey/p/14219867.html
Copyright © 2020-2023  润新知