circRNA 中的ALU 重复元件

circRNA 最初研究的很少，只有很小一部分基因有检测到circRNA, 当时都认为是剪切错误形成的，对于其功能也没人去研究；学者对人类的成纤维细胞进行转录组测序，构建去核糖体文库，同时采用了RNase酶消化线性RNA 和不消化线性RNA的两种文库，同时检测circRNA , 最终检测到了25000 多种circRNA ，这些circRNA 来源于exon 区，叫做 ecircRNA, 保守估计，有14%的基因都产生了circRNA. 利用同样的方法，在小鼠睾丸组织中，鉴定到了69种和人类的circRNA 高度同源的circRNA。circRNA 的表达量，可以被siRNA 调控，推测具有竞争性内源RNA的作用，而且通过生物信息学手段发现，这些ecircRNA 大部分都具有 ALU 重复元件，这些都表明circRNA 并不是随机的剪切错误产生的，而是固有的一类，种类丰富，结构稳定，序列保守的内源性RNA;

真核生物的total RNA 中，非编码RNA（ncRNA）占据了95%的比例，尽管在ncRNA 中，rRNA 和 tRNA 占据了绝大部分，但是其他类型的ncRNA , 比如miRNA和 lncRNA , 其研究越来越多，越来越受到重视，科学家通过RNase R 消化线性RNA, 利用高通量测序来研究circRNA, 主要使用了mapsplice 工具。

为了研究哺乳动物细胞中的circRNA , 科学家发明了一种 CircleSeq 的文库构建方法

首先去除rRNA，然后用RNAse R 消化线性RNA, 同时还设立了对照组，就是不消化线性RNA的文库作为对照；

研究发现 RNase R 处理的文库，可以很好的实现circRNA 富集的效果，更加有利于检测低风度的circRNA , 富集效果是普通文库的10倍以上；

Hiseq 对每个样本进行高通量测序，数据量为300M,使用mapsplice 软件比对参考基因组，

对于每一条测序的reads, mapsplice 会一次进行下列 4种比对：

1）完全来自1个exon , 这样的reads 直接比对上参考基因组

2）跨越了剪切位点，叫做junction reads, 这样的reads 在剪切位点的两侧，分别能够比对上参考基因组；

3）反向剪切 backsplice 生成的reads, 同样是在剪切位点两侧分别比对，但是比对的顺序和线性RNA的顺序正好相反；

4）融合转录本的序列，融合位点两侧的序列比对上了不同的染色体

参考资料：

http://rnajournal.cshlp.org/content/19/2/141.long#F6

相关阅读:
HDU 2852 KiKi's K-Number (主席树)
HDU 2089 不要62
Light oj 1140 How Many Zeroes?
Bless You Autocorrect!
HDU 6201 transaction transaction transaction
HDU1561 The more ,The better （树形背包Dp）
CodeForces 607B zuma
POJ 1651 Mulitiplication Puzzle
CSUOJ 1952 合并石子
Uva 1599 Ideal path

原文地址：https://www.cnblogs.com/xudongliang/p/8270663.html