• 常用生物信息 ID 及转换方法


    众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换.


    常用数据库 ID

    ID 示例ID 来源
    ENSG00000116717 Ensemble ID
    GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
    A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
    A2BC19, P12345, A0A022YWF9 UniProt, accession number
    GLA, GLB, UGT1A1 HGNC Gene Symbol
    U12345, AF123456 GenBank, NCBI, accession number
    NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
    10598, 717 Entrez ID, NCBI
    uc001ett, uc031tla.1 UCSC ID

    Ensembl stable IDs

    Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.

    常用物种前缀

    前缀学名
    ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
    ENSCAF Canis lupus familiaris (Dog)
    ENSDAR Danio rerio (Zebrafish)
    FB Drosophila melanogaster (Fruitfly)
    ENS Homo sapiens (Human)
    ENSMUS Mus musculus (Mouse)
    ENSRNO Rattus norvegicus (Rat)
    ENSXET Xenopus tropicalis (Xenopus)

    类型前缀

    前缀类型
    E exon
    FM Ensembl protein family
    G gene
    GT gene tree
    P protein
    R regulatory feature
    T transcript

    UniProt

    UniProt 中录入的数据都被分配了一个唯一的 entry name.

    UniProtKB/Swiss-Prot entry name

    UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五个便于记忆的蛋白质编号, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

    蛋白质编号示例如下:

    Code(X)Recommended protein nameGene name
    B2MG Beta-2-microglobulin B2M
    HBA Hemoglobin subunit alpha HBA1
    INS Insulin INS
    CAD17 Cadherin-17 CDH17

    物种编号示例如下:

    CodeSpecies
    BOVIN Bovine
    CHICK Chicken
    ECOLI Escherichia coli
    HORSE Horse
    HUMAN Homo sapiens
    MAIZE Maize (Zea mays)
    MOUSE Mouse
    PEA Garden pea (Pisum sativum)
    PIG Pig
    RABIT Rabbit
    RAT Rat
    SHEEP Sheep
    SOYBN Soybean (Glycine max)
    TOBAC Common tobacco (Nicotina tabacum)
    WHEAT Wheat (Triticum aestivum)
    YEAST Baker’s yeast (Saccharomyces cerevisiae)

    UniProtKB/TrEMBL entry name

    UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是 6 到 10 个字符组成的 accession number, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

    Accession Number

    UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}

    实际上, accession number 是三种类型:

    12345678910
    [O P Q] [0-9] [A-Z 0-9] [A-Z 0-9] [A-Z 0-9] [0-9]        
    [A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]        
    [A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]

    如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.


    HUGO Gene Nomenclature Committee

    Gene Symbol

    Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母.

    如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 个不同的 gene symbol.


    NCBI

    GenBank Accession Number

    GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.

    RefSeq Accession Number

    RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.

    Accession 前缀类型说明
    AC_ Genomic Complete genomic molecule, usually alternate assembly
    NC_ Genomic Complete genomic molecule, usually reference assembly
    NG_ Genomic Incomplete genomic region
    NT_ Genomic Contig or scaffold, clone-based or WGS
    NW_ Genomic Contig or scaffold, primarily WGS
    NS_ Genomic Environmental sequence
    NZ_ Genomic Unfinished WGS
    NM_ mRNA  
    NR_ RNA  
    XM_ mRNA Predicted model
    XR_ RNA Predicted model
    AP_ Protein Annotated on AC_ alternate assembly
    NP_ Protein Associated with an NM_ or NC_ accession
    YP_ Protein  
    XP_ Protein Predicted model, associated with an XM_ accession
    ZP_ Protein Predicted model, annotated on NZ_ genomic records
    • WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.

    Entrez ID

    Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.


    UCSC ID

    UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.

    如: uc010qfk.3, uc010qfk.3.


    ID Mapping

    • Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面.
    • bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面.
    • DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析.
    • BridgeDB 一套提供 ID 转换的框架.
    • Human genes converter 把常用的 Ensambl ID 或 Symbol 转换为 Gene 的 Entrez ID.
    By @Wolfson Liu in 
  • 相关阅读:
    【有奖互动】3D内容平台开版啦,参与互动话题赢超值京东卡!
    HarmonyOS开发竟如此简单,九岁小朋友也能轻松上手
    HMS Core 5.3.0版本发布公告
    Web页面如何进行可视化埋点(二)
    在鸿蒙中实现类似瀑布流效果
    手把手教你快应用接入微信H5网页支付
    Scrcpy投屏真机到电脑 并集成DevEco真机调试 Mac系统下
    【软通动力】HarmonyOS三方件开发指南(6)-ActiveOhos_sqlite组件
    Web页面如何进行可视化埋点(一)
    HMS Core Insights第三期直播预告—— 当我们在谈论App的时候,我们还可以谈论什么?
  • 原文地址:https://www.cnblogs.com/wangshicheng/p/11171058.html
Copyright © 2020-2023  润新知