• 人类基因组在三大基因数据库中的不同版本


    在数据分析中,经常需要下载物种的参考基因组序列,这时有很多数据库可以选择,比如NCBI, Ensembl, UCSC这三个通用的数据库,或者该物种特有的数据库,

    比如模式生物拟南芥等有专门的数据库。

    在NCBI, Ensembl 和 UCSC中对于同一个物种,编号不统一,在这里整理一下它们之间的关系,以人类基因组为例:

    在NCBI中,对于不同的拼装版本,以NCBI Build Number 进行区分,而相同的版本之间又有微小的区别,以Version 表示不同的小版本,

    在下面的连接中可以看到人类基因组之前的版本,

    比如BUILD.36.1, NCBI Build Number 为36, Version 为1, 从BUILD 37.1 开始,又有了新的命名方式,GRCh37

    有个CRC的组织(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),该组织是由EBI,NCBI等组织联合起来的学术团体,对基因组的不同拼装版本进行简短而统一的命名,h表示人类,37

    表示版本号,对于同一个版本,会有小的修改,此时用p加上编号进行标识,比如Build 37.3 又命名为GRCh37.p5 ,p代表patch, 补丁;

    目前比较常用的版本有GRCh37 和CRCh38 两个版本;

    在Ensembl 中,有不同的release ,比如

    人类基因组从release-76到release-83对应 GRCh38, 从release-55到release-75对应GRCh37

    这个从命名方式可以看出来,以release-83为例:

    人类基因组第一条染色体命名为 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼装的版本

    在UCSC中,

    hg38对应GRCh38

    hg19对应GRCh37

    还有一点需要注意的是, Ensembl下载下来的fasta序列, 其标识符中不包含chr,

    比如人类基因组1号染色体,在UCSC和NCBI中下载下来的标识符为>chr1,而Ensembl 中为>1

  • 相关阅读:
    第04组 Alpha冲刺(4/6)
    第04组 Alpha冲刺(3/6)
    第04组 Alpha冲刺(2/6)
    第04组 Alpha冲刺(1/6)
    第04组 团队Git现场编程实战
    第04组 团队项目-需求分析报告
    团队项目-选题报告
    第二次结对编程作业
    第04组 Alpha冲刺(6/6)
    第04组 Alpha冲刺(5/6)
  • 原文地址:https://www.cnblogs.com/xudongliang/p/5189400.html
Copyright © 2020-2023  润新知