• TCGA样本命名详解


    在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

    TCGA-A6-6650-01A-11R-1774-07
    TCGA-A6-6650-01A-11R-A278-07
    TCGA-A6-6650-01B-02R-A277-07
    大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

    在取舍之前,当然要先搞清楚样本命名方式:

    我们将此示图以”-“分割,具体拆开解读一下:

    TCGA:Project, 所有TCGA样本名均以这个开头,标志
    A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见:
    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
    6650:Participant, 参与者编号
    01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下:
    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
    所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字
    A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:
    所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

    11:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
    R:Analyte, 分析的分子类型,对应关系如下所示:
    https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
    1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚
    07:Center, 测序或鉴定中心编码,更多编码详见:
    https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
    一个借鉴的图片:

    更多内容详见:
    https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
    http://docs.cavatica.org/docs/tcga-grch38-metadata

    所以现在看这三个样本:

    TCGA-A6-6650-01A-11R-1774-07
    TCGA-A6-6650-01A-11R-A278-07
    TCGA-A6-6650-01B-02R-A277-07
    其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

    理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

    TCGA-A6-6650-01A-11R-1774-07
    TCGA-A6-6650-01A-11R-A278-07
    先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

    1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。
    2、如果Analyte相同,那就选择Portion和/或Plate值更大的。
    所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚:
    https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
    虽然看起来可能这么选比较准确,但是稍微有些麻烦~

    然后是cBioPortal中的处理方式:

    随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。
    ---------------------
    作者:Mr番茄蛋
    来源:CSDN
    原文:https://blog.csdn.net/qq_35203425/article/details/80851862
    版权声明:本文为博主原创文章,转载请附上博文链接!

  • 相关阅读:
    C++解析-外传篇(3):动态内存申请的结果
    C++解析-外传篇(2):函数的异常规格说明
    C++解析-外传篇(1):异常处理深度解析
    C++解析(31):自定义内存管理(完)
    Fisherfaces 算法的具体实现源码
    Philipp Wagner
    人脸识别中截取面部的实现方法
    OpenCV Haar AdaBoost源码改进据说是比EMCV快6倍
    win10系统下载地址
    人脸识别中的检测(在Opencv中加入了QT)
  • 原文地址:https://www.cnblogs.com/nkwy2012/p/10112581.html
Copyright © 2020-2023  润新知