AC自动机笔记
0.0 前言
哇,好久之前就看了 KMP 和 Trie 树,但是似乎一直没看懂 AC自动机??
今天灵光一闪,加上之前看到一些博客和视频,瞬间秒懂啊... 其实这个玩意还是蛮好理解的...
在这里先给一个样例,之后也都好举例子.
模式串:
5
FG
HE
HERS
HIS
SHE
匹配串:HISHERS
1.1 深度理解 KMP
KMP 算法的精华部分即其处理的 Next 数组.
Next 数组所存的数值即代表j之前的字符串中有最大长度为k 的相同前后缀.
记录这个有什么用呢?
对于ABCDABC这个串,如果我们匹配ABCDABTBCDABC这个长串,当匹配到第7个字符T的时候就不匹配了,我们就不用直接移到B开始再比一次,而是直接移到第5位来比较,岂不美哉?
Next 数组存的是最长的相同的串长度,再从第一个开始匹配明显是不需要的,我的最长公共前后缀的位置即为第一个可能匹配成功的位置.
所以其正确性很明显,而 KMP 其中的失配匹配思想 (姑且让我这么说说罢) 是 AC自动机中很重要的一环.
1.2 利用 Trie 树
关于AC自动机中的 Trie 树,其实其最大做用就是用来存储给出的字典.
Trie 树在处理很多查找问题时都会有不错的效用.01 Trie 树也是处理异或问题的一大利器.
利用 Trie 树,我们对上文中的例子就可以构建出一张图:
(先不要管点上的数字,度娘的图...虚线后面会用到)
2.0 Trie 树上的 KMP
以上二者即为 AC自动机 的前置技能.
我们需要建立一棵 Trie 树,用于存储其给出的字典.
同时我们需要利用 KMP 其中的失配匹配思想,用以优化时间复杂度.
2.1 Fail 指针
概念
AC 自动机中的 Fail 指针,其实就相当于 KMP 中的 Next 数组.
我们先看看 Fail 是怎么跳的.
然后再一次搬出上文那张图:
此时我们便可以对图中的虚线作出解释了.
每个点所对应虚线指向的地方,即为这个点的 Fail 指针.
Fail 指针指向的地方是与 从Trie 树起点到这个点 公共前后缀最长的地方.
同时要求这个前后缀不能与其等长(否则不就是自己么?).
比如说 90 这个节点, 从起点到这个点所形成的串即为 S H.
然后我们找到另外一个与其公共前后缀最长的点,就是 74 了.
此时它们的公共前后缀即为 H.
又如 S H E 和 H E 这两个位置.
匹配过程
然后此时我们看一下怎么匹配所给出的匹配串.
H I S H E R S
先匹配 H 然后走进 74 这个节点.
继续匹配 I 然后走进 80 这个节点.
继续匹配 S 然后发现这里有一个单词,于是统计答案.
统计到 S 后,我们下一个看往的方向即为它的 Fail -- 85.
因为它们有公共前后缀 S.
然后发现 85 的后一个正好即为 H,然后我们与之匹配.
再匹配 90和91. 然后我在 91 统计答案.
因为后面已经无路可走,于是我们跳到 91 的 Fail,即为 76.
它们有公共前后缀 H E.
然后我们继续跑到 86 ,此时需要被匹配的串已经走完了,我们整个过程结束.
2.2 Fail 的寻找
可以看出,当我们 Fail 找完之后,整个 AC 自动机的工作其实已经完成了一大半.那么我们如何处理出 Fail 指针呢?
我们用广搜实现.
首先对于根节点的子节点,因为只有一个字母,所以不可能有其余的子串与其有公共前后缀,所以直接会根节点.
然后对于接下来的 Fail ,我们把它直接赋为它爸爸的Fail 子节点中与其字母相等的子节点. 上一小段代码:
for(int i=0;i<26;i++)
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
}
2.3 Code
/*
Problem : AC自动机
Time : Day -94
*/
#include<bits/stdc++.h>
#define maxn 1000008
using namespace std;
struct AC_machine
{
int ch[maxn][26];
int num[maxn],f[maxn];
// f即为fail指针.
int tot;
void insert(string s)
{
int u=0,len=s.length();
for(int i=0;i<len;i++)
{
if(!ch[u][s[i]-'a'])
ch[u][s[i]-'a']=++tot;
u=ch[u][s[i]-'a'];
}
num[u]++;
} //往Trie树里插入元素.
void build()
{
queue<int> q;
for(int i=0;i<26;i++)
{
if(ch[0][i])
f[ch[0][i]]=0,
//第一层与其他单词不可能有公共前后缀,fail直接为根.
q.push(ch[0][i]);
}
while(q.empty()!=1)
{
int u=q.front(); q.pop();
for(int i=0;i<26;i++)
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
//画图理解贼容易.
}
else ch[u][i]=ch[f[u]][i];
//这一步直接省略了查询时的比较.
}
} //构建Fail指针.
int query(string s)
{
int u=0,len=s.length(),ans = 0;
for(int i=0;i<len;i++)
{
u=ch[u][s[i]-'a'];
for(int j=u;j&&num[j]!=-1;j=f[j])
//就用这个循环实现跳的过程.
ans+=num[j],num[j]=-1;
//因为直接已经在每个单词的最后面打了标记,所以直接加上即可.
}
return ans;
}
}AC;
int n;string s;
int main()
{
cin>>n;
for(int i=1;i<=n;i++)
{
cin>>s;
AC.insert(s);
}
AC.build();
cin>>s;
cout<<AC.query(s)<<endl;
}
几个常用的优化
1.类路径压缩(构建 Fail 时优化)
详见以下代码:
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
}
else ch[u][i]=ch[f[u]][i];
此步操作使得在比较时省去了 While 循环.
如果没有匹配,直接进入 Fail 的匹配之中.
(参考刘汝佳《算法竞赛入门经典训练指南》P216).
2.后缀链接
这里我们需要多加一个 last 数组.
同样见代码:
- 构建 Fail 部分
if(ch[u][i])
{
f[ch[u][i]]=ch[f[u]][i];
q.push(ch[u][i]);
last[u]=num[f[u]]?f[u]:last[f[p]]
}
else ch[u][i]=ch[f[u]][i];
- 匹配查询过程
for(int i=0;i<len;i++)
{
u=ch[u][s[i]-'a'];
for(int j=u;j&&num[j]!=-1;j=last[j])
ans+=num[j],num[j]=-1;
}
此处我们的 last 大概可以理解为一个 超级 Fail.
因为我们只有到根节点时才会重新匹配一个字母
所以我们此时直接记录一个last ,直接结束当前匹配过程.
直接省去原 Fail 指针到可以匹配的节点之间的距离.
同时结合上文类路径压缩,在匹配时可以完全不使用原 Fail.
3.树形DP优化
此处树形DP优化的是查询部分.
首先我们可以发现, Fail 指针是绝对满足树形结构的.
显而易见,每个点的 Fail 都仅指向一个一个节点.
然后具体做的过程我似乎还没学懂...
不过也可以理解为构建一个 超级 Fail,优化的部分与 2 差不多.
小结
AC自动机算法的精华在于Fail 所体现的失配匹配思想.
在 KMP 中也都有体现,在不同的题目中,也应巧妙运用这一性质.
参考(讲的都比我好QwQ):