• 35、多重比对序列的格式及其应用


    转载:http://boyun.sh.cn/bio/?p=1711

    这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

    生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

    多重序列数据分析流程

    进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

    下表是目前主流的格式:

    名称 后缀 描述 Unique file Feature 详细定义地址
    FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
    GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
    Aligned FASTA (UCSC a2m) format .a2m UCSC    
    Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 # STOCKHOLM 1.0<seqname> <aligned sequence>

    //
    链接wiki链接
    PHYLIP .phy, .phylip, .phylip2 PHYLIP software   链接
    NBR/PIR .pir NBRF or PIR sequence format >P1; 链接
    CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 链接
    GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color.   链接
    NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format.   链接
    BLC .blc   >Seq1>Seq2  
    PFAM .pfam   SequenceName THISISASEQENCE 链接
    MEGA .meg MEGA software    
    SELEX .      
    IG .ig      
    Internet (NCBI) XML format .xml      
    NBRF format .nbrf      

    主要软件平台对于格式的要求

    • Clustal
      输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
      输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    • MUSCLE(http://www.drive5.com/muscle/muscle.html)
      输入:FASTA, CLUSTAL, MSF
      输出:FASTA
    • hmmbuild
      ClustalW, GCG MSF, or SELEX
    • hmmalign
      输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
      输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
    • Jalview java viewer (http://www.jalview.org/help.html)
      输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
      输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
    • MEGA
      输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
      输出:MEGA, PAUP, FASTA
    • PFAM数据库
    • Selex, Stockholm, MSF, FASTA
  • 相关阅读:
    WordPress 开源文章采集插件 胖鼠采集
    什么是Meta标签? 哪些Meta标签对搜索引擎SEO优化有作用?
    webpack简单原理及用法
    Vue工作原理小结
    angularjs工作原理解析
    雅虎工程师提供的CSS初始化示例代码
    移动端rem用法总结
    前端开发兼容问题大全
    GBDT原理详解
    代码实战之AdaBoost
  • 原文地址:https://www.cnblogs.com/renping/p/7460792.html
Copyright © 2020-2023  润新知