AC自动机详解 (P3808 模板)

AC自动机详解 (P3808 模板)
AC自动机笔记

0.0 前言

哇,好久之前就看了 KMP 和 Trie 树,但是似乎一直没看懂 AC自动机??
今天灵光一闪,加上之前看到一些博客和视频,瞬间秒懂啊... 其实这个玩意还是蛮好理解的...

在这里先给一个样例,之后也都好举例子.

模式串:
5
FG
HE
HERS
HIS
SHE

匹配串:HISHERS

1.1 深度理解 KMP

KMP 算法的精华部分即其处理的 Next 数组.
Next 数组所存的数值即代表j之前的字符串中有最大长度为k 的相同前后缀.
记录这个有什么用呢?
对于ABCDABC这个串,如果我们匹配ABCDABTBCDABC这个长串,当匹配到第7个字符T的时候就不匹配了,我们就不用直接移到B开始再比一次,而是直接移到第5位来比较,岂不美哉？
Next 数组存的是最长的相同的串长度,再从第一个开始匹配明显是不需要的,我的最长公共前后缀的位置即为第一个可能匹配成功的位置.
所以其正确性很明显,而 KMP 其中的失配匹配思想 (姑且让我这么说说罢) 是 AC自动机中很重要的一环.

1.2 利用 Trie 树

关于AC自动机中的 Trie 树,其实其最大做用就是用来存储给出的字典.
Trie 树在处理很多查找问题时都会有不错的效用.01 Trie 树也是处理异或问题的一大利器.
利用 Trie 树,我们对上文中的例子就可以构建出一张图:
(先不要管点上的数字,度娘的图...虚线后面会用到)

2.0 Trie 树上的 KMP

以上二者即为 AC自动机的前置技能.
我们需要建立一棵 Trie 树,用于存储其给出的字典.
同时我们需要利用 KMP 其中的失配匹配思想,用以优化时间复杂度.

2.1 Fail 指针

概念

AC 自动机中的 Fail 指针,其实就相当于 KMP 中的 Next 数组.
我们先看看 Fail 是怎么跳的.
然后再一次搬出上文那张图:

此时我们便可以对图中的虚线作出解释了.
每个点所对应虚线指向的地方,即为这个点的 Fail 指针.

Fail 指针指向的地方是与从Trie 树起点到这个点公共前后缀最长的地方.
同时要求这个前后缀不能与其等长(否则不就是自己么?).
比如说 90 这个节点, 从起点到这个点所形成的串即为 S H.
然后我们找到另外一个与其公共前后缀最长的点,就是 74 了.
此时它们的公共前后缀即为 H.
又如 S H E 和 H E 这两个位置.

匹配过程

然后此时我们看一下怎么匹配所给出的匹配串.

H I S H E R S

先匹配 H 然后走进 74 这个节点.
继续匹配 I 然后走进 80 这个节点.
继续匹配 S 然后发现这里有一个单词,于是统计答案.

统计到 S 后,我们下一个看往的方向即为它的 Fail -- 85.
因为它们有公共前后缀 S.

然后发现 85 的后一个正好即为 H,然后我们与之匹配.
再匹配 90和91. 然后我在 91 统计答案.

因为后面已经无路可走,于是我们跳到 91 的 Fail,即为 76.
它们有公共前后缀 H E.

然后我们继续跑到 86 ,此时需要被匹配的串已经走完了,我们整个过程结束.

2.2 Fail 的寻找

可以看出,当我们 Fail 找完之后,整个 AC 自动机的工作其实已经完成了一大半.那么我们如何处理出 Fail 指针呢?
我们用广搜实现.

首先对于根节点的子节点,因为只有一个字母,所以不可能有其余的子串与其有公共前后缀,所以直接会根节点.

然后对于接下来的 Fail ,我们把它直接赋为它爸爸的Fail 子节点中与其字母相等的子节点. 上一小段代码:
```
  for(int i=0;i<26;i++)
        if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
            }
```
2.3 Code
```
/*
Problem : AC自动机
Time : Day -94
*/
#include<bits/stdc++.h>
#define maxn 1000008
using namespace std;

struct AC_machine
{
    int ch[maxn][26];
    int num[maxn],f[maxn];
    // f即为fail指针.
    int tot;
    void insert(string s)
    {
        int u=0,len=s.length();
        for(int i=0;i<len;i++)
        {
            if(!ch[u][s[i]-'a'])
                ch[u][s[i]-'a']=++tot;
            u=ch[u][s[i]-'a'];
        }
        num[u]++;
    } //往Trie树里插入元素.
    void build()
    {
        queue<int> q;
        for(int i=0;i<26;i++)
        {
            if(ch[0][i])
            f[ch[0][i]]=0,
            //第一层与其他单词不可能有公共前后缀,fail直接为根.
            q.push(ch[0][i]);
        }
        while(q.empty()!=1)
        {
            int u=q.front(); q.pop();
            for(int i=0;i<26;i++)
            if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
                //画图理解贼容易.
            }
            else ch[u][i]=ch[f[u]][i];
            //这一步直接省略了查询时的比较.
        }
    } //构建Fail指针.
    int query(string s) 
    {
    	int u=0,len=s.length(),ans = 0;
    	for(int i=0;i<len;i++)
    	{
        	u=ch[u][s[i]-'a'];
        	for(int j=u;j&&num[j]!=-1;j=f[j]) 
        	//就用这个循环实现跳的过程.
        	ans+=num[j],num[j]=-1;
        	//因为直接已经在每个单词的最后面打了标记,所以直接加上即可.
    	}
    return ans;
    }
}AC;
int n;string s;
int main()
{
    cin>>n;
    for(int i=1;i<=n;i++)
    {
        cin>>s;
        AC.insert(s);
    }
    AC.build();
    cin>>s;
    cout<<AC.query(s)<<endl;
}
```
几个常用的优化

1.类路径压缩(构建 Fail 时优化)
详见以下代码:
```
if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
            }
            else ch[u][i]=ch[f[u]][i];
```
此步操作使得在比较时省去了 While 循环.
如果没有匹配,直接进入 Fail 的匹配之中.
(参考刘汝佳《算法竞赛入门经典训练指南》P216).

2.后缀链接
这里我们需要多加一个 last 数组.
同样见代码:
- 构建 Fail 部分
```
if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
                last[u]=num[f[u]]?f[u]:last[f[p]]
            }
            else ch[u][i]=ch[f[u]][i];
```
- 匹配查询过程
```
for(int i=0;i<len;i++)
    	{
        	u=ch[u][s[i]-'a'];
        	for(int j=u;j&&num[j]!=-1;j=last[j]) 
        	ans+=num[j],num[j]=-1;
    	}
```
此处我们的 last 大概可以理解为一个 超级 Fail.
因为我们只有到根节点时才会重新匹配一个字母
所以我们此时直接记录一个last ,直接结束当前匹配过程.
直接省去原 Fail 指针到可以匹配的节点之间的距离.
同时结合上文类路径压缩,在匹配时可以完全不使用原 Fail.

3.树形DP优化
此处树形DP优化的是查询部分.
首先我们可以发现, Fail 指针是绝对满足树形结构的.
显而易见,每个点的 Fail 都仅指向一个一个节点.
然后具体做的过程我似乎还没学懂...
不过也可以理解为构建一个超级 Fail,优化的部分与 2 差不多.

小结

AC自动机算法的精华在于Fail 所体现的失配匹配思想.
在 KMP 中也都有体现,在不同的题目中,也应巧妙运用这一性质.

参考(讲的都比我好QwQ):
相关阅读:
PHP中单引号与双引号的区别分析
 utf8_unicode_ci与utf8_general_ci的区别
 [mysql-Ver5.6.23] windows版my.ini配置
 Gateway/Worker模型数据库使用示例
 php 字符串以开头以结尾 startWith endWith
MySQL错误ERROR 2002 (HY000): Can't connect to local MySQL server
vim变ide
在Vue中使用样式
 Vue指令之`v-model`和`双向数据绑定
 Vue指令之事件修饰符
原文地址：https://www.cnblogs.com/Kv-Stalin/p/9443622.html

AC自动机详解 (P3808 模板)

AC自动机笔记

0.0 前言

1.1 深度理解 KMP

1.2 利用 Trie 树

2.0 Trie 树上的 KMP

2.1 Fail 指针

概念

匹配过程

H I S H E R S

2.2 Fail 的寻找

2.3 Code

几个常用的优化

小结