Aho-Corasick automaton是一种用于多模板串匹配文本串的算法。是KMP算法与Trie树的结合。
来看一个经典的例子,要求在一段文字中找到给定单词列表中的所有单词,你会怎么办?可以对每个单词跑一遍KMP,但是复杂度极高。比较好的做法是用AC自动机。
AC自动机可以认为是将多个模板串建成Trie树,然后利用KMP的“失配指针”思想,去匹配文本串。
根据上面说的,AC自动机有3个主要环节。一、建Trie树。这和建普通的Trie树基本没有区别。二、得到每个非根结点的失配指针。先将所有的fail指针初始化为指向根结点。对于根结点的孩子,让其fail指针指向根结点即可。除此之外,每个结点的fail指针由其父亲的fail指针得到,即fail[ch[u][i]]=ch[fail[u]][i];但是,如果其父亲的fail指针指向的结点没有和当前结点代表字符一样的孩子,又该怎么办呢?可以从一开始就让那些指向不存在的孩子的指针去指向该结点的fail指针指向结点的对应孩子。相当于简化了过程,你发现接下来“无路可走”了,那么就去到最近的“有路可走”处,最多也就回到根结点。三、匹配文本串。我们按照文本串,在Trie树上走,每走到一个结点,都会再去不断沿着fail指针到根结点,将途中遇到的匹配统计下来。比如,匹配到了she,那么同时也匹配到了he。
1 struct AC_automaton { 2 int ch[maxn][maxc],fail[maxn],cnt[maxn],num; 3 //与Trie树相比只是多了fail数组 4 AC_automaton() { 5 memset(ch,-1,sizeof(ch)); //ch全部初始化为-1 6 memset(fail,0,sizeof(fail)); 7 memset(cnt,0,sizeof(cnt)); 8 num=0; 9 } 10 void insert(char* s) { 11 int u=0; 12 for(int i=0;s[i];++i) { 13 if(ch[u][s[i]-'a']==-1) ch[u][s[i]-'a']=++num; 14 u=ch[u][s[i]-'a']; 15 } 16 ++cnt[u]; //插入和Trie树基本相同 17 } 18 void build() { //建立失配指针 19 queue<int> q; //BFS 20 for(int i=0;i<maxc;++i) { //根节点特殊处理 21 if(ch[0][i]==-1) ch[0][i]=0; 22 else q.push(ch[0][i]); 23 } 24 while(!q.empty()) { 25 int u=q.front();q.pop(); 26 for(int i=0;i<maxc;++i) { 27 if(ch[u][i]==-1) ch[u][i]=ch[fail[u]][i]; //没有这个孩子,则可以让其向上找 28 else { 29 fail[ch[u][i]]=ch[fail[u]][i]; //孩子的失配指针由父亲得到 30 q.push(ch[u][i]); 31 } 32 } 33 } 34 } 35 int count(char* s) { //统计文本串中出现过多少次模板串(可重复) 36 int u=0,ans=0; 37 for(int i=0;s[i];++i) { 38 u=ch[u][s[i]-'a']; 39 int tmp=u; 40 while(tmp) { //不断向上找 41 ans+=cnt[tmp]; 42 // cnt[tmp]=0; 43 //加上这一句代表在文本串中出现过多少个模板串(不重复) 44 tmp=fail[tmp]; 45 } 46 } 47 return ans; 48 } 49 };