• 知乎Live总结-重复nature文章笔记Single-cell


    来自知乎Live-孟浩巍 

    1.文章重要技术及图讲解

    首先在转录组RNA-seq中,有基因表达差异、基因融合、可变剪切、RNA单点突变。

    在基因组中,单点变异、结构变异,CNV变异(拷贝数变异)

     三类基本内容,主要是RNA-seq的分析。

    从生物水平角度理解肺癌,掌握RNA-seq的建库流程 ,单细胞的建库流程和方法。

    这个是通过热力图的方式,找出5种细胞中的特异性的gene marker,什么是基因标记,在某一个stage或者细胞内特异性表达的基因是基因marker。

     0-15图标是取过log的fpkm,每一行是一个细胞的数据(约有80行),每一列一个基因的数据(有100+列)选取了100多个有代表性的基因。

    左侧的rep1,2,3是聚类,是批次的意思。时间间隔大的叫做两个batch,同样的方法去做生物学重复叫repeat。每一个Repeat都有一个侧重点,根据颜色深度。颜色分布比较均匀说明不是因为聚类原因才导致的当前结果。

    *是什么意思?表示相对应的细胞中的差异表达基因gene marker。

    bp细胞可以分划为AT1和AT2细胞,导致基因表达谱逐渐发生变化,到6和4表达谱就完全不同了,包含了基因表达调控的过程。

    灰色大括号:这个部分是两个Stage显著变化的基因。

    ①左边绿色的部分,在胚胎发育过程当中的14.5天,16.5天到成熟时期分别进行了RNA-seq;

    ②右上角的基因fpkm基因表达量,越深表达量越低,越亮表达量越高;

    ③最左边的颜色部分是为了区分细胞。Early progenitor(早期祖先)。

    ④每一行是一个单细胞,每一列是一个基因。那么同一细胞之间是有聚类在一起的。调过参数、使用trick选择部分基因,才让BP出现在中间的,AT1和AT2是由BP发展而来的。

    启示:能做出来这个结果,客观上真假不能确定,这种参数条件下能出来这种结果。

    ⑤横轴底部是将细胞分成不同的时期。

     是boxplot的补充,随着分化的进行。随着分化的进行,纵向是不同的细胞类型,横轴是不同的基因list。

     ————使用RNA-seq,提供了分化表达时的基因marker,给出了每个过程较重要的基因list。

    建库做了100+个细胞;PCA分析;花了很多的heatmap并且用到了聚类方法;用到了GO分析;画了whilelink???

     2.具体技术细节

     

    建库方法1:成熟的mRNA有5'端的帽子和3'端的PolyA尾巴,直接对PolyA富集,那么就可以针对成熟mRNA了,但是这样就扔掉了很多不成熟的。

    建库方法2:rRNA minus去除法。

    核糖体主要分布在两个位置:糙面内质网和游离态,主要是在内置网上。

    这个是核糖体的结构,黄色部分是rRNA,蓝色部分是核糖体蛋白。可以看出rRNA占了较大部分,核糖体蛋白主要是维持结构稳定。

     

    //这个一开始看一脸懵,经过讲解看懂了。

    左边是真核生物的rRNA,有一个大亚基和一个小亚基,其中大亚基是由5.8S,5S,28S这三种rRNA组成的,小亚基由18S rRNA组成的。

     这四种亚基占细胞内RNA的比例99%以上,所以在建库时必须要去掉rRNA。

    以上是部分关于建库的生物知识,下面是传统mRNA建库的正式的步骤:

    Ⅰ.提取mRNA

     

    1.使用Oligo dT磁珠对成熟的mRNA进行富集;

    2.然后进行cDNA反转,就是根据mRNA得出互补的DNA基因片段;

    3.打断成片段

    4.加接头

    5.进行PCR扩增

    重点:3-4打断的过程,应该会不一般齐,有一个末端补平的过程,然后再加上一个A粘性末端,之后就可以加上测序的引物,引物是Y型的adaptor.

    Ⅱ.rRNA minus方法

    //这个听了两遍还是不太明白,是不是讲错了一点?

    首先是将所有的RNA提取,然后是用磁珠将rRNA先去掉一遍,然后打碎,接上adaptor;转换成cDNA,如果此时还有rRNA,那么加入RNaseH进行消化掉,之后对加上引物cDNA进行扩增。

    之后的过程就是一样了,这不就是建库完成了吗?~~~

    //很不明白这是什么意思,为什么要测基因表达差异呢?有什么作用呢???

    那么如何判断提取的RNA的质量呢?通过电泳图,如上。

    最左边是Gene marker,接着从左到右依次是从好到坏,最好的就是左边第二条,最差的是最右边的。 

    有人提问如何去 tRNA,回答是由于长度的选择会将tRNA筛掉。(我怎么就没想到这个问题呢?还是水平不行。)

    这个图是一个量化RNA提取水平,RIN(RNA完整数),需要有这些region和一些fragment。

    下面给出了几个标准:

    RIN越大越好,提取组完全没有降解,可以进行下一步。一般要求RIN7以上,低于则建库失败。

    有人提问:如何判断提取的RNA中有没有被别的物种污染? 

    答:这个是需要进行比对的,测序之后的GCcontent是可以看出来的,如果比对不上那么就BLAST。

    有人提问:那个rRNA去除的时候那个磁珠是可以特异结合rRNA的?

    答:是特异结合的,有两步的去rRNA的,第一步就是磁珠,第二步是加入rRNA降解酶消化掉。(为什么这种问题我没有想到?其实我这个地方是不太明白的,我的想法是以后有问题再百度,为什么我没有提出问题呢?。。。这就是差距,以及性格问题)

    3.单细胞测序入门

    分为两种:DNA水平测序;RNA水平测序。 

    比如本篇文章的五种,肺部细胞最终形成了5种:科普一下:

    小肺泡细胞(I型)、大肺泡细胞(II型肺泡细胞)、肺巨噬细胞等等类型。

    这几种细胞的基因表达都不同,这就是单细胞存在的意义,就是基因差异性表达呗!

    比如在上图中右部有一个红块,细胞1中ABD基因表达,细胞2中ABC基因表达....如果一块测那么所有肯定是都表达。

    下面是09年的早期single-cell的Rna-seq老师提出的方法:

    提问:大家可以思考一下,为什么传统的RNA-Seq不能做单细胞?

    //我刚入门,感觉一脸懵,不知道。

    只要有富集的过程,效率都是非常低的,能富集到10%就非常多了。总之就是富集效率低!

    细胞裂解-> 带有T的primer直接进行cDNA反转-> 再加上polyA-> 再合成UP2-> 使用PCR扩增-> cDNA打断-> 绑定Adaptor-> 库扩增。

    //为啥这里有一个cDNA的扩增呢?应该直接打断+adaptor,然后再PCR啊。

    这里还是应该对cDNA有所学习: 

    与mRNA互补的DNA,是与RNA互补的单链DNA,在反转录酶的作用下合成的;合成完之后再在碱作用下去掉RNA,再合成双链cDNA,与原来基因中的DNA不同而且没有内含子! 

     

    这个就是cDNA双链的合成过程,还是比较容易理解的!

    **所有单细胞测序scRNA-seq的就是先反转再富集,一旦有富集就肯定做不到单细胞。 

    PCR扩增长度是有一定限制的(但是为什么为什么为什么?那里并没有打断就进行了PCR amplification呢???这不是相矛盾了吗???) 

    PCR扩增时有偏倚bias,它偏向于扩增GC含量高的。 

    下面是smart-seq的过程:

    就是上边这个过程了,多加一个ployA,合成时加了一个CCC,之后用特殊酶Tn5直接会识别4个碱基并加上Adaptor,  

    接下来的过程和RNA-seq还是差不多的,首先是质控,mRNA前处理,回帖(也就是比对),计算不同基因表达量,比较差异表达。 

    有个人提问:全程没有rRNA去除的步骤,是不是pcr扩增mRNA之后rRNA被稀释了?(我为什么没想到,之前你想想建库的时候不就是苦于rRNA过多吗???)

    答:+adaptor其他的序列是加不上的,所以建库是建不了rRNA的。(感觉live主这个回答的有点水,不具体)

    //有可能是只有有一个polyA的才能再加一个polyA ???我是这么理解。

  • 相关阅读:
    【SCOI2012】滑雪
    【NOI2008】假面舞会
    ※初赛知识总结※
    【FJSC2012】足球
    【中山市选2011】杀人游戏
    【SDOI2008】洞穴勘测
    【SNOI2017】炸弹
    【LGOJ1606】白银莲花池
    int类型中为什么负数比正数多了一个数?
    utf8、utf16、utf32之间的格式
  • 原文地址:https://www.cnblogs.com/BlueBlueSea/p/9827764.html
Copyright © 2020-2023  润新知