• fastqc结果中的Per sequence GC content, Sequence Duplication Levels 和 Overrepresented sequences


    C含量分布图 Per sequence GC content

    这个图理论上应该符合正态分布(也就是钟形曲线),除非有过表达的序列( over-represented sequences)[也就是在正态分布的基础上有一个尖尖的峰],或者存在其他物种的污染[也就是多个峰]

    从这个图中可以看到,这个应该是符合过表达序列的情况,说明要么存在序列污染,要么是有个特别高表达的基因

    重复序列数 Sequence Duplication Levels

    这个图可以帮助判断文库的复杂程度,如果PCR扩增次数太多或者起始扩增底物太少,都会降低文库的复杂度。

    这个图中可以看到,似乎有大量的重复序列,也就是说文库复杂程度低,可能与某个基因的过表达有关

    过表达序列表 Overrepresented sequences

    这个表的作用也非常重要!

    它展示了长度至少20bp,数量占总数0.1%以上的reads碱基组成,它可以帮助判断污染(比如:载体、接头序列)

    如果上面的GC含量分布图"挂了",这个表可以帮助我们判断来源,如果是已知的载体或者接头,它会列出来;如果不是,可以复制序列去blast。

    比如这里就可以去复制表达最多的第一条序列去blast,然后发现它其实是一个基因,于是可以验证之前的猜想:基因过表达


    来源:


  • 相关阅读:
    MyCat 数据库读写分离
    python 网络编程-05 socketserver
    python 网络编程-04 文件的传输
    python 网络编程-03 粘包问题及处理
    常用模块-01getopt
    js获取自动获取本电脑IP
    js变态需求
    js正则不能输入中文和英文
    禁止输入中文
    手机号3-4-5
  • 原文地址:https://www.cnblogs.com/bio-mary/p/12187542.html
Copyright © 2020-2023  润新知