为了减少由于扩增引起的误差,人们在一些单细胞测序的步骤中增加了 UMI(unique molecular identifiers),UMIs 是由 4-10 个随机核苷酸组成的序列,在 mRNA 反转录后,进入到文库中,每一个 mRNA,随机连上一个 UMI,因此可以计数不同的 UMI,最终计数 mRNA 的数量。
10X genomics单细胞测序通过Barcode来标记细胞,UMI 来标记转录本,这样与参考基因比对后就可以定量细胞以及基因的数量。
Cell Ranger 进一步将外显子reads与参考转录本比对,寻找兼容性。注释到单个基因信息的reads认为是一个特异的转录本,只有注释到转录本的reads才用于UMI计数。
在逆转录的过程中,有些方案利用独特分子标识符(UMI)对单分子进行标记,这些是随机的六核苷酸,可以更精确地定量单细胞中mRNA分子的初始量。之后,通过体外转录或PCR扩增cDNA,然后将扩增好的cDNA文库用于文库制备和高通量测序。
UMIs
另一种标准化方法是使用 Unique Molecular Identifiers (UMIs)(Kivioja et al. 2012). UMIs是一种随机条形码(barcode)序列,长度在4-20 bp之间。 在扩增步骤之前(通常在反转录期间),UMIs被添加在每个转录本cDNA的3’或5’端。之后,对转录本末端进行靶向测序。这些barcodes使得在扩增步骤之前,可以对转录本进行定量。虽然UMIs消除扩增偏好性的效果非常好,但是不合适用于研究基因异构体和allel特异表达。
barcode : 每一个单细胞的cDNA文库,就带上了独一无二的barcode了,barcode是用来区分细胞的,跟umi不同。
UMI:(Unique Molecular Identifiers)是短序列,用于唯一标记样品库中的每个分子。UMI被广泛用于测序应用,大多关于DNA和cDNA的PCR重复。UMI去重复还可用于RNA-seq基因表达分析和其他定量测序方法。简而言之:UMI是唯一可识别的短序列,作为UMI是唯一的,所以我们可以知道在PCR扩增的过程中哪些是由同一条DNA扩增出来的。
基于标签(barcode)的单细胞识别,给每个细胞加上独一无二的DNA序列,这样在测序的时候,就把携带相同barcode的序列视为来自同一个细胞了。这种策略,可以通过一次建库,测得数百上千个单细胞的信息。
每一个油滴中会落入一个细胞以及一个凝胶微珠,那么在每一个凝胶微珠中上长满了不同的Cell Barcode和UMI Barcode连接形成的序列,再加上一端PolyT的抓手,构成我们的捕获凝胶微珠。而这个凝胶微珠抓手就会使用oligo dT抓住mRNA构建文库。
10X的基本技术原理:一个油滴=一个单细胞=一个凝胶微珠=一个RNA-Seq
BD的基本技术原理:一个微孔=一个单细胞=一个磁珠=一个RNA-Seq
REF
https://blog.csdn.net/weixin_46021869/article/details/115733190
https://www.sohu.com/a/122201336_390793
https://www.jianshu.com/p/f0f6ae624c00
https://www.plob.org/article/11101.html
https://zhuanlan.zhihu.com/p/73077913?from_voters_page=true