• 1018. 【AHOI2006】基因匹配


    Description

    卡卡昨天晚上做梦梦见他和可可来到了另外一个星球,这个星球上生物的DNA序列由无数种碱基排列而成(地球上只有4种),而更奇怪的是,组成DNA序列的每一种碱基在该序列中正好出现5次!这样如果一个DNA序列有N种不同的碱基构成,那么它的长度一定是5N。
    卡卡醒来后向可可叙述了这个奇怪的梦,而可可这些日子正在研究生物信息学中的基因匹配问题,于是他决定为这个奇怪星球上的生物写一个简单的DNA匹配程序。

    为了描述基因匹配的原理,我们需要先定义子序列的概念:若从一个DNA序列(字符串)s中任意抽取一些碱基(字符),将它们仍按在s中的顺序排列成一个新串u,则称u是s的一个子序列。对于两个DNA序列s1和s2,如果存在一个序列u同时成为s1和s2的子序列,则称u是s1和s2的公共子序列。
    卡卡已知两个DNA序列s1和s2,求s1和s2的最大匹配就是指s1和s2最长公共子序列的长度。

    编写一个程序:

    1. 从输入文件中读入两个等长的DNA序列;
    2. 计算它们的最大匹配;
    3. 向输出文件打印你得到的结果。

    Solution

    注意到每个数字刚好出现 5 次,因此每个位置可以匹配的只有 5 个位置。

    所以可以先 \(\mathcal O(n)\) 找出每个数可以匹配的位置,然后组合成长度为 \(25n\) 的序列,求个最长上升子序列即可。但为了不让一个数被重复,所以组合时对于每个数字需要从大到小加入可匹配的位置。

    问题在于怎么求最长上升子序列。一般的求法是 \(\mathcal O(n^2)\),是过不了这道题的。

    考虑优化至 \(\mathcal O(n\log n)\)。这个方法网上有很多讲解,这里讲一下我的想法。

    维护的是最长上升子序列, 那么考虑什么情况可以更新最长上升子序列,显然是当前数大于当前序列的末尾。但如果小于等于末尾,就说明这个数可能会对答案进行影响。

    那么我们二分找到序列中第一个小于当前数的位置,并且从那之后可以开创一个新的分支,记录以当前数为末尾的子序列。

    具体来说,设 \(f_i\) 表示长度为 \(i\) 的上升子序列末尾的数是什么,如果当前数 \(x\) 大于 \(f_{len}\)\(len\) 为最长上升子序列的长度),那么直接加进来即可。

    但如果当前数小于等于 \(f_{len}\),就找出 \(f\) 中第一个 \(i\) 使得 \(f_i<x\),然后 \(f_{i+1}=x\),因为长度为 \(i+1\) 的结尾选 \(x\) 会更优,因为具有更大的空间。

    Code

    #include<cstdio>
    #define N 20005
    int n,num,len,a[N*5],b[N*5],q[N*30],c[N][10],d[N*30];
    using namespace std;
    int two_point(int l,int r,int x)
    {
    	int mid=0,res=0;
    	while (l<=r)
    	{
    		mid=(l+r)>>1;
    		if (d[mid]<x) res=mid,l=mid+1;
    		else r=mid-1;
    	}
    	return res;
    }
    int main()
    {
    	scanf("%d",&n);
    	for (int i=1;i<=5*n;++i)
    		scanf("%d",&a[i]);
    	for (int i=1;i<=5*n;++i)
    	{
    		scanf("%d",&b[i]);	
    		c[b[i]][++c[b[i]][0]]=i;
    	}
    	for (int i=1;i<=5*n;++i)
    	{
    		for (int j=1;j<=c[a[i]][0];++j)
    			q[++num]=c[a[i]][c[a[i]][0]-j+1];
    	}
    	d[len=1]=q[1];
    	for (int i=2;i<=num;++i)
    	{
    		if (q[i]>d[len]) d[++len]=q[i];
    		else
    		{
    			int p=two_point(1,len,q[i]);
    			d[p+1]=q[i];
    		}
    	}
    	printf("%d\n",len);
    	return 0;
    }
    
  • 相关阅读:
    L2R 三:常用工具包介绍之 XGBoost与LightGBM
    连续特征自动离散化
    优化算法
    L2R 一:基础知识介绍
    深度学习--pytorch安装
    vim实用操作指南
    小贴士--Python
    setInterval和clearInterval应用小实例
    表单应用举例
    容器
  • 原文地址:https://www.cnblogs.com/Livingston/p/16131758.html
Copyright © 2020-2023  润新知