• KEGG注释


    在 KEGG 数据库中,把功能相似的蛋白质归为同一组,然后标上 KO 号。通过相似性比对,可以为未知功能的蛋白序列注释上 KO 号。

    截止到 2015 年 6 月 12 日,KEGG 数据库中共收录了 3,904 个完整的基因组。其中 304 个为真核生物,3,600 个为原核生物。在真核生物中,共有 299 个物种(一个物种可能不止一个基因组),分为 172 科,227 属;在原核生物中,共有 1,858 个物种,分为 809 属。

    KEGG 对这些物种的基因序列构成了一个非冗余的 KEGG GENES 数据库;通过 BlastKOALA 和 GhostKOALA, 可对用户提交的蛋白质序列,与 KEGG GENES 数据库分别进行 BLAST 或 GHOSTX 相似性比对,为蛋白质序列注释上 K number,即 KO 号。其中,GHOSTX 比对和 BLAST 比对类似,能够检测到分歧度较大的同源序列(remote homologues),在速度上比 BLAST 大约快 100 倍,两者的区别是:

    • BlastKOALA:用于注释高质量基因组,只能提交 5,000 - 10,000 条蛋白质序列。
    • GhostKOALA:用于注释宏基因组,文件大小为 300 M 以内。

    有了 KO 号,就可以重构 KEGG 数据库中的 KEGG pathways 及其他分子网络,然后进行其他分析。

    这里以 BlastKOALA 为例,对蛋白质序列进行 KO 注释。

    分析步骤如下:

    1

    • 选择物种所属的分类单元,如这里选择植物“plant”

      2

    • 选择一个数据库进行比对。这些数据库由 KEGG GENES 分别在种、属、科水平去冗余后生成。这里选“属”水平的真核生物,如下图右表所示,上传的蛋白质序列限制为 7,500 条序列。

      3

    • 填写自己的邮箱地址,并提交任务,开始分析。

      4

    • 回跳转到这个界面,耐心等待即可。5

    • 分析完成后,会收到邮件通知。

      6

    • 点击链接,返回如下结果。

      7

     
     
  • 相关阅读:
    Marker
    Log4j 2
    Spring 中 CharacterEncodingFilter 失效?
    Java 泛型通配符
    待修 Bug
    Java Class SecurityManager
    bzoj 5210: 最大连通子块和【动态dp+树剖+线段树+堆】
    洛谷 P4719 【模板】动态dp【动态dp】
    bzoj 2555: SubString【后缀自动机+LCT】
    洛谷 P4125 [WC2012]记忆中的水杉树【扫描线+set+线段树】
  • 原文地址:https://www.cnblogs.com/wangshicheng/p/11168174.html
Copyright © 2020-2023  润新知