• 单细胞测序之质控分析(QC 质量控制)


    单细胞测序之质控分析(QC)

    为什么要做质控?

    在细胞分离过程中的细胞损伤或者文库制备的失败(无效的逆转录或者PCR扩增失败),往往会引入一些低质量的数据。这些低质量的数据的主要特点是:

    细胞整体上的counts值少(列),每列是一个细胞,细胞上的counts值少
    基因的低表达(行),每行是一个gene
    线粒体基因或者spike-in的比例相对较高
    如果这些损伤的行或者列,没有被移除的话,可能会对下游的分析结果产生影响。所以我们在进行分析之前,一定要率先移除这些低质量的行与列。



    质控的指标

    每一个细胞所有基因的counts值之和
    在文库制备的过程中,可能因为细胞的裂解或cDNA捕获和扩增效率的低下,而使得RNA的丢失。具有较小的counts值之和的细胞被认为是低质量的细胞,考虑被去除。

    每一个细胞中单个基因的表达数量
    多样化的转录本如果没有被成功的捕获到,因此任何一个细胞中有很少的基因表达,被认为是低质量的,考虑被去除。

    每一个细胞中,spike-in序列/线粒体基因占总的counts值的比例
    每个细胞中添加的spike-in序列(人为添加的表达量的参照系)的浓度都是等量的。如果spike-in的比值很高,那么就意味着在实验的过程中,大量的转录本丢失。

    同样的,线粒体基因的高比例,也意味着这可能是由于穿孔细胞的细胞质RNA丢失,从而产生低质量的细胞。理由是,在存在适度细胞损伤的情况下,细胞膜上的孔允许单个转录物分子外排(丢失),但过小而无法使线粒体逸出,从而导致线粒体转录物的相对富集。


    低质量细胞的影响
    细胞破坏后,可能会导致线粒体或核RNAs占比升高(大量细胞质中mRNA流失,而线粒体或核RNAs含量基本不变),很有可能会根据这个结果形成自己的一个个cluster。
    低质量的细胞一般文库比较小,而差异分析之前一般对文库大小进行一个归一化。比如正常细胞文库大小是100,某个基因表达量是2;损伤细胞的文库大小是10,这个基因表达量还是2。归一化后,损伤细胞中的这个基因表达量计算结果明显会高于正常细胞,呈现一种“本来不优秀,但班里人少了,排名就上升”的状态。
    细胞损伤可能会伴随RNA的流失,因此许多基因可能会被认为“下调”,尤其体现在细胞质核糖体RNA(另外还包括一些细胞质转录本)。
    影响方差估计和PCA结果。真实情况下,可能一个基因在两个细胞中差异并不显著,但是由于其中一个细胞质量低,导致基因表达量在这两个细胞中差异明显;反映在PCA结果就是:前几个主成分会抓取细胞质量的差异,因为这种差异体现得更明显,而将真正的生物学因素放到了后面几个主成分中,因此得到的PCA结果其实也只是反映了细胞质量的差异,而非真正的生物学差异。

    如果一个细胞群体异质性较高,那么很有可能一些高质量细胞本身表达的数量就是比其他细胞少,但事实上它不是技术误差造成的。因此不能通过一个固定的阈值进行过滤,而要“因地制宜”,根据每群细胞各自的特性(比如各自的中位值),然后结合一定的统计指标(例如3倍的MAD)

    过滤的细胞会不会属于某一个具有生物意义的细胞类群,如果真的是,那么就会有相应的marker基因高表达。


    ————————————————

    https://blog.csdn.net/weixin_40640700/article/details/114538295
    https://blog.csdn.net/weixin_40640700/article/details/114538295
    https://www.plob.org/article/20886.html
    https://www.bilibili.com/read/cv7221663/





  • 相关阅读:
    系统引导管理器GRUB,为初学者指南
    PHPBB安装
    python的装饰器
    PIL的问题解决
    python的小技巧
    强烈推荐instagram的ppt
    新的一天
    OpenStack介绍
    ansible自动化运维工具
    .net连oracle的问题
  • 原文地址:https://www.cnblogs.com/emanlee/p/14932294.html
Copyright © 2020-2023  润新知