• 用tophat和cufflinks分析RNAseq数据[转载]


    转自:http://blog.sciencenet.cn/home.php?mod=space&uid=635619&do=blog&id=884213

    //今天看到一篇非常好的讲解RNA-seq的文章,mark一下。

    1.基本步骤

    RNAseq分析大致分下面几个步骤:

    ①首先要把测到的序列map到基因组上,

    ②然后根据map到的区段对细胞构建转录本

    ③然后比较几种细胞的转录本并且合并

    ④最后衡量差异和可变剪切和其他的分析。

    2.mapping

     可以使用哈希的方法比对,但是由于基因组重复序列太高,效率很低;

    所以有了Burrows-Wheeler变换,BWA,Bowtie 和SOAP2都是用它。

    Burrows-Wheeler变换是一种文本压缩算法,对于一个精确的序列查找,最多在给定序列的长度的次数里就能找到匹配。

    重要问题***:

    因为一条RNA不一定是一个外显子表达出来的,也有可能是几个外显子结合在了一起,原来基因里的内含子被空了出来,这些内含子的长度从五十到十万个碱基不等;

    如果直接用DNAseq的方法的话去在基因组里寻找,有些正好在两个exon连接处的序列就会有错配,而且有些在进化过程中遗漏下来的假基因是没有intron的,这样就导致有些序列会被map到假基因上去,使假基因的表达变得很高,所以,传统的bwa和bowtie在RNAseq里都不是最好的选择。

    3.构建转录本

    Mapping完了以后,cufflinks就可以把map到基因组里的序列组装成一个转录组了,这个转录组理论上包含了所有当时细胞里的所有mRNA,组装好的转录组包含了可能的剪切信息和所有转录的表达量,这个表达量是根据map到基因组的序列的总数和每个转录片断的长度进行归一化的,听起来比较难懂,它是对于在转录片断里的每一千个碱基对,在每一百万个成功map的序列中,map在这一千个碱基对上的序列的比例,fragments per kilobase of transcript per million mapped fragments (FKPM)。

    计算公式:

    在公式里,C代表的是map在这一千个碱基对上的序列的个数,N是所有成功map的序列的个数,L是转录片断的长度。

  • 相关阅读:
    移动web前端高效开发实践 读书笔记
    前端开发最佳实践-读书笔记
    frontend-Tips
    匿名函数的几种写法
    12个用得着的JQuery代码片段(转)
    tesseract-ocr 学习笔记(比网上的中文说明都详细)
    关于大数据的思考
    单片机实验的小记录~~PWM
    组建Redis集群遇到`GLIBC_2.14' not found和ps -ef 不显示用户名
    柔性数组(Redis源码学习)
  • 原文地址:https://www.cnblogs.com/BlueBlueSea/p/9872992.html
Copyright © 2020-2023  润新知