• assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats


    (组装方面):SOAPdenovo ,因为采用de Bruijn graph algorithm算法和stepwise strategy ,所以排错能力高,所以我们获得高质量数据。

    de Bruijn graph algorithm算法????

    readscontig :多个reads比对,比对后reads之间重叠(overlap)区,拼接获得的序列称为Contig

    contig到scaffold:mate-pair得到的用于确立位置的短readsinsert组合,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口得到一个完整的scafflod。

    (组装1).assembled the short reads:得到pair-endreadsoverlap(比对效果好,没有模糊repeat)后获得contig;因为没有使用long insert-size paired-end libraries因为long insert-size paired-end libraries会积累错误序列的overlap),所以我们得到很好contig(由n50长度可知)

    因为长序列会积累错误序列的overlap,所以短序列排出来准确性高

    测序深度x):指测序得到的总碱基数(并不是连成序列)与待测基因组大小的比值

    39-fold coverage short-reads:测试深度为39x总数据/基因长度

    初次判定的总数据量可能估计基因组大小的100倍,因为物理上的因素(部分序列被酶降解等)最后得到73X

    覆盖度%):指测序获得的序列占整个基因组的比例,测序depthcoverage成倒数关系

    组装2join the contigs into scaffolds在可能为gap的区域添N,将insert一端mapping独立的contig;一端定位gap区域并且mapping unmapping endmate-pair)。这样就得到了scaffold140kb);因为在close了所有能closegap之后,仍有2.4%gap(因为这些gap中约90%含有食肉类特异性转座元件和串联重复序列(原因一:因为串联重复序列很难用现有的匹配算法拼接策略克服)。 具有较高的单元标识和大于序列读取长度的长度,无法与当前数据进行组装。)(原因二:assembly丢失,因为狗与人序列的相似性,狗的串联重复序列占比少)

    estimated intra-scaffold gaps:就是未测得的添N

    什么是串联重复 tandem repeats?:短序列重复同时串联起来。

    食肉类特异性转座元件为什么测不出来?转座子是存在于染色体DNA上可自主复制和位移的基本单位,因为它能够自主复制和位移,所以同串联重复序列难以测得的理由一致。

  • 相关阅读:
    NLP——天池新闻文本分类 基于深度学习的文本表示
    NLP——天池新闻文本分类 Task4:fasttext深度学习
    NLP——天池新闻文本分类 TASK3
    Python基础Task3:异常处理
    Python基础TASK2:条件语句与循环语句
    React开发入门:以开发Todo List为例
    [MIT 18.06 线性代数]Intordution to Vectors向量初体验
    [Java Tutorial学习分享]接口与继承
    FutureTask源码分析(JDK7)
    KMP(超详细复杂度分析)
  • 原文地址:https://www.cnblogs.com/yuanjingnan/p/11060713.html
Copyright © 2020-2023  润新知