• Jzoj2197 三核苷酸


         三核苷酸是组成DNA序列的基本片段。具体来说,核苷酸一共有4种,分别用’A’,’G’,’C’,’T’来表示。而三核苷酸就是由3个核苷酸排列而成的DNA片段。三核苷酸一共有64种,分别是’AAA’,’AAG’,…,’GGG’。给定一个长度为L的DNA序列,一共可以分辨出(L-2)个三核苷酸。现在我们想用一些统计学的方法来进行一些分析,步骤如下:

    1.对于这(L-2)个三核苷酸,我们从左到右给予编号,分别为1到L-2。

    2.从这(L-2)个三核苷酸挑选一对出来,一共有(L-2)*(L-3)/2种可能。如果某一对三核苷酸是一样的,我们就记录他们之间的距离。他们之间的距离定义为他们的编号之差。
    3.根据我们所记录的“样本数据”,我们现在需要计算样本数据的方差。


    方差的计算公式是S2=1/n*Σ(X-Xi)^2 ,nX=ΣXi

    我们把它拆开就可以得到nS2=X^2-2nX^2+ΣXi^2

    也就是说我们只需要得到每一对样本差的和平方和就好了,直接一个前缀和

    注意浮点误差

    #pragma GCC optimize("O3")
    #pragma G++ optimize("O3")
    #include<vector>
    #include<stdio.h>
    #include<string.h>
    #include<algorithm>
    using namespace std;
    vector<long long> c[64];
    int n,T,d[128]; char t[100010];
    long long s[100010],s2[100010],S,S2,N;
    int _18520(){
    	scanf("%s",t+1); n=strlen(t+1); S=S2=N=0;
    	for(int i=3;i<=n;++i) c[d[t[i]]+d[t[i-1]]*4+d[t[i-2]]*16].push_back(i);
    	for(int i=0;i<64;++i) if(c[i].size()>1){
    		N+=c[i].size()*(c[i].size()-1)>>1;
    		for(int j=0,z=c[i].size();j<z;++j)
    			s[j+1]=s[j]+c[i][j],s2[j+1]=s2[j]+c[i][j]*c[i][j];
    		for(int j=1,z=c[i].size();j<z;++j)
    			S+=c[i][j]*j-s[j],S2+=c[i][j]*c[i][j]*j+s2[j]-2*c[i][j]*s[j];
    	}
    	if(N==0) puts("0.000000");
    	else printf("%.6lf
    ",-(double)S/N*S/N+(double)S2/N);
    }
    int main(){
    	freopen("tri.in","r",stdin);
    	freopen("tri.out","w",stdout); 
    	d['A']=0; d['G']=1; d['C']=2; d['T']=3;
    	for(scanf("%d",&T);T--;_18520())
    		for(int i=0;i<64;++i) c[i].clear();
    }

  • 相关阅读:
    ****jQuery
    LANMPS 一键PHP环境安装包(转)
    微信支付授权目录填写规则
    ***四种参数传递的形式——URL,超链接,js,form表单
    WDCP控制面板安装卸载
    html meta标签使用总结(转)
    适合wordpress中文网站的seo优化插件 DX-Seo
    事件驱动框架(二)——状态机【转】
    深入剖析变长参数函数的实现【转】
    Makefile经典教程(一个很棒很清晰的讲解)【转】
  • 原文地址:https://www.cnblogs.com/Extended-Ash/p/8449248.html
Copyright © 2020-2023  润新知