• NR 数据库简介


    目前有很多的数据库都存储了蛋白序列,比如NCBI Refseq, protein, swissprot 等,在各个数据库之间,或者是在某个数据库中,蛋白序列有大量冗余;为了方便使用,ncbi 构建了nr 库, 全称是 RefSeq non-redundant proteins;

    Non-redundant protein sequences from GenPept,  Swissprot, PIR, PDF, PDB, and NCBI RefSeq

    完整的nr 数据库的蛋白序列和预先构建好的blast 索引可以从ncbi 的ftp 服务器上下载得到,地址如下:

    https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/

    通常情况下,我们直接下载构建好的blast 索引就可以了,因为

    1) 整个nr 的蛋白序列非常大,大概30G 左右,如果自己构建索引,非常费时;

    2)ncbi 提供的blast索引,在构建时已经把每条序列的种水平的tax id 加进去了,用这个索引可以非常方便的得到序列对应的物种注释信息;

    3) 使用blastdbcmd 命令可以从索引中还原出原始的nr 序列;

    对于NCBI ftp 的数据,我们可以用aspera  进行下载, 速度非常快

    ascp -i ~/asperaweb_id_dsa.openssh  -QTr -l6000m  anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.00.tar.gz ./

    由于nr 库较大,所以 ncbi 把 nr 库分成了很多小份的fasta 序列,建立索引

    对于nr 的序列而言,其标识符中包含了很多的信息

    >XP_642131.1 hypothetical protein DDB_G0277827 [Dictyostelium discoideum AX4]P54670.1 RecName: Full=Calfumirin-1; Short=CAF-1BAA06266.1 calfumirin-1 [Dictyostelium discoideum AX2]EAL68086.1 hypothetical protein DDB_G0277827 [Dictyostelium discoideum AX4]

    首先是1个蛋白序列的编号,后面是这条序列对应的详细信息,方括号内是物种名称; 由于nr 库是非冗余的,这里的每一条蛋白序列可以理解为 一个聚类的group 中的代表序列,第一条是该代表序列本身的信息,后面几条是属于这个group 下的其他序列的信息;

    这里有两种情况,

    1) 这一个group 中所有的蛋白序列都来源于同一个物种;

    WP_003131952.1 30S ribosomal protein S18 [Lactococcus lactis]

    2) 这一个group 中所有的蛋白序列都来源于多个物种;

    WP_000184067.1 MULTISPECIES: MbtH family protein [Bacillus]

    唯一不同的是,当来源于多个物种时,会在前面加上 MULTISPECIES 关键字

    对于nr 中的序列,其标识符有两种:

    1) WP 开头 :真实存在的蛋白序列

    2)XP 开头: 理论上的蛋白序列(计算机软件预测的结果)

    通常情况下,我们比对nr 库有两种用途:

    1)蛋白质功能注释: 需要输出蛋白质的描述信息

    对于这个需求,nr 库里包含了这些信息,所以比较简单,直接blast 比对,在输出结果中输出这个信息就可以了

    2) 物种注释:输出蛋白对应的物种信息

    在序列中有明确的 species 水平的注释,但是我们还需要phylum 等水平的注释,这时候就需要借助Taxonomy 数据库,把物种注释信息补充完整。

     
  • 相关阅读:
    阿里巴巴人力资源挖坑 面试技术挑战题
    •••| 卡牌游戏诞生记 |•••
    JavaScript:js-cookie存取
    乘积最大
    最大的算式
    KMP笔记√//找最大子串,前缀自匹配长度
    牛棚回声
    P1027 木瓜地
    P1026 犁田机器人
    P1023 奶牛的锻炼
  • 原文地址:https://www.cnblogs.com/xudongliang/p/8086572.html
Copyright © 2020-2023  润新知