• Next generation sequencing (NGS)二代测序数据预处理与分析


    二代测序原理:

    1、DNA待测文库构建。 超声波把DNA打断成小片段,一般200--500bp,两端加上不同的接头
    2、Flowcell。一个flowcell,8个channel,很多接头
    3、桥式PCR扩增。每个DNA片段将在各自位置集中成束,每一束含有单个DNA模板的很多拷贝,目的:将碱基的信号强度放大,达到测序所需的信号要求。
    4、测序。边合成边测序。反应所需材料,dNTP的3’端特殊处理,不能继续反应,因此每次只能添加一个碱基,另外每个碱基有一种颜色。dNTP添加到链上后,所有未使用游离dNTP和DNA聚合酶会被洗脱掉。

       接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,

       最后,   利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。

    双端测序:正义链测100,反义链测100,合起来200,这样测序结果比较准确。

    Next generation sequencing (NGS)二代测序数据预处理与分析

    By  | 2014 年 3 月 12 日

    常使用的工具列表

    • 质量控制Quality Control:FastQC、Fastx-toolkit
    • 拼接Aligner:BWA,Bowtie, Tophat, SOAP2
    • Mapper:Tophat, Cufflinks
    • 基因定量 Gene Quantification: Cufflinks, Avadis NGS
    • 质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
    • SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
    • CNV: CNVnator
    • Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
    • Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

     相关的数据格式

    • FASTQ:
    • SAM: A generic nucleotide alignment format
    • BAM: binary format
    • VCF

     数据处理的流程

    RNAseq数据不容易分析的原因:

    • 差异大,0~几万
    • 基因多
    • 巨大的变异
    • 样本量小
    • 鉴定SNP可供借鉴的经验

    鉴定SNP可供借鉴的经验

    如果一个基因中SNP数目超过3个,10个碱基中SNP数目超过2个,这样的SNP就需要怀疑;

    通过RNAseq、DNAseq鉴定SNP,有什么区别?

    本质没有区别,但是RNAseq时,需要注意可变剪接 造成的SNP。

    参考资料:

    http://boyun.sh.cn/bio/?p=1862

  • 相关阅读:
    jdbc(插入大对象及读取大对象、存储过程)
    jdbc批量插入操作(addBatch)
    javase(Properties集合及学生对象信息录入文本中案例)
    javase模拟斗地主洗牌和发牌(54)
    javase套接字编程
    javase网络编程
    javase多线程复制
    javase文件切割及融合
    设计原则
    模板方法模式
  • 原文地址:https://www.cnblogs.com/wangprince2017/p/9937546.html
Copyright © 2020-2023  润新知