DNA repair
Time Limit: 5000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 872 Accepted Submission(s): 473
You are to help the biologists to repair a DNA by changing least number of characters.
The following N lines gives N non-empty strings of length not greater than 20 containing only characters in "AGCT", which are the DNA segments causing inherited disease.
The last line of the test case is a non-empty string of length not greater than 1000 containing only characters in "AGCT", which is the DNA to be repaired.
The last test case is followed by a line containing one zeros.
number of characters which need to be changed. If it's impossible to repair the given DNA, print -1.
2 AAA AAG AAAG 2 A TG TGAATG 4 A G C T AGT 0
Case 1: 1 Case 2: 4 Case 3: -1
题目的大意:给定n个危险DNA序列,再给一段长度长为L的DNA序列S,
DNA序列S中可能包含危险DNA序列,可以改变S中的字符,改变一个
算一次操作,问最少操作几次可使S不含危险DNA序列并输出,
如果怎么操作都会含有危险DNA序列输出-1。
解题思路:采用AC自动机+dp。想法比较创新,用给定的n个
危险DNA序列,建立一个Trie 树,每个树的节点都可以看做状态
转移方程的一个 状态。即只要当前节点不为 危险节点(某个
危险DNA序列的结束位置),则此状态可取。
状态转移方程 为 dp[i][j->next[k]] = min(dp[i][j->next[k]],dp[i-1][j] + (S[i] != k))
(dp[i][j]表示在我们构造解的过程中,长度为i且到节点 j位置的最少操作数,
不可达到值为inf) .
或者 我们这样看,根据危险DNA序列所建的字典树,我们用模拟的方式 ,从第一个
字符开始构造, 依次递增,找到一个满足要求的字符串,在构造此字符串的同时,比较
该字符串和输入要判断的序列S,若该位置i的字符和s[i],相同,则表示,此位置
的字符不需要改变,反则,需要把s[i]该为词字符,为一次改变操作.
所以此题中,由字典树构造失败指针时,需要考虑考虑所有存在的next 节点,
即 temp->next[i] =NULL时,需对temp->next[i]的指向赋值,使其充当自身next节点
的失败指针的作用,确保匹配失败是可以回溯到相应节点的位置。
注意 动态规划方程中 每模拟增加一个字符,就是从j 状态节点,转到 j->next[k]状态节点 ,
所以
所以 最后 的结果应该是 搜 dp[len][j],0<=j<count 的最小值
--------------------------------
#include <iostream> #include <cstring> #include <cstdio> #include <queue> using namespace std; const int kind = 4; const int OO=1e9; int cnt_data; struct node { node *fail; node *next[kind]; int num; bool visit; bool flag; node() { fail = NULL; visit = false; flag = false; num = cnt_data++; memset(next,NULL,sizeof(next)); } }; node* data[111111]; node* query_temp_que[1111]; int f[1111][11111]; int get_dna(char c) { if (c=='A') return 0; if (c=='G') return 1; if (c=='C') return 2; if (c=='T') return 3; return -1; } void insert(node *root,char *str) { node *p=root; int i,index; int len=strlen(str); for (i=0; i<len; i++) { index=get_dna(str[i]); if(p->next[index]==NULL) { p->next[index]=new node(); data[cnt_data-1]=p->next[index]; } p=p->next[index]; if (p->flag) break; } p->flag=true; } //寻找失败指针 void build_ac_automation(node *root) { int i; queue<node *>Q; root->fail = NULL; Q.push(root); while(!Q.empty()) { node *temp=Q.front();//q[head++];//取队首元素 Q.pop(); node *p=NULL; for(i=0; i<kind; i++) { if(temp->next[i]!=NULL)//寻找当前子树的失败指针 { //------- if(temp==root) temp->next[i]->fail=root; else { temp->next[i]->fail=temp->fail->next[i]; if (temp->fail->next[i]->flag == true) //说明从root 到 节点temp->next[i]的字符串中 包含子串 从root // 到节点 temp->fail->next[i]的危险DNA序列,故此节点 标记为 1, // 动态规划时不能到此状态。 temp->next[i]->flag = true; } //------- Q.push(temp->next[i]); } else { if(temp==root) temp->next[i]=root; else temp->next[i]=temp->fail->next[i]; } } } } int query(node *root,char *str) { int index; int head,tail; int len=strlen(str); head=tail=0; node *p = root; for (int i=0;i<=len;i++) { for (int j=0;j<=cnt_data;j++) { f[i][j]=OO; } } f[0][0]=0; for (int i=1;i<=len;i++) { index = get_dna(str[i-1]); for (int j=0;j<cnt_data;j++) { if (f[i-1][j]<OO) { for (int k=0;k<4;k++) { if (!data[j]->next[k]->flag) { p=data[j]->next[k]; f[i][p->num]=min(f[i][p->num],f[i-1][j]+(index!=k)); } } } } } int ans=OO; for (int j=0;j<cnt_data;j++) { if (f[len][j]<ans) ans=f[len][j]; } if (ans==OO) return -1; return ans; } int main() { int n; char dna[1111]; char key[111]; node* root; int cnt=1; while (~scanf("%d",&n)) { if (n==0) break; cnt_data=0; root=new node(); data[cnt_data-1]=root; for (int i=0; i<n; i++) { scanf("%s",key); insert(root,key); } build_ac_automation(root); scanf("%s",dna); int ans=query(root,dna); printf("Case %d: %d\n",cnt++,ans); } return 0; }