• assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats


    (组装方面):SOAPdenovo ,因为采用de Bruijn graph algorithm算法和stepwise strategy ,所以排错能力高,所以我们获得高质量数据。

    de Bruijn graph algorithm算法????

    readscontig :多个reads比对,比对后reads之间重叠(overlap)区,拼接获得的序列称为Contig

    contig到scaffold:mate-pair得到的用于确立位置的短readsinsert组合,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口得到一个完整的scafflod。

    (组装1).assembled the short reads:得到pair-endreadsoverlap(比对效果好,没有模糊repeat)后获得contig;因为没有使用long insert-size paired-end libraries因为long insert-size paired-end libraries会积累错误序列的overlap),所以我们得到很好contig(由n50长度可知)

    因为长序列会积累错误序列的overlap,所以短序列排出来准确性高

    测序深度x):指测序得到的总碱基数(并不是连成序列)与待测基因组大小的比值

    39-fold coverage short-reads:测试深度为39x总数据/基因长度

    初次判定的总数据量可能估计基因组大小的100倍,因为物理上的因素(部分序列被酶降解等)最后得到73X

    覆盖度%):指测序获得的序列占整个基因组的比例,测序depthcoverage成倒数关系

    组装2join the contigs into scaffolds在可能为gap的区域添N,将insert一端mapping独立的contig;一端定位gap区域并且mapping unmapping endmate-pair)。这样就得到了scaffold140kb);因为在close了所有能closegap之后,仍有2.4%gap(因为这些gap中约90%含有食肉类特异性转座元件和串联重复序列(原因一:因为串联重复序列很难用现有的匹配算法拼接策略克服)。 具有较高的单元标识和大于序列读取长度的长度,无法与当前数据进行组装。)(原因二:assembly丢失,因为狗与人序列的相似性,狗的串联重复序列占比少)

    estimated intra-scaffold gaps:就是未测得的添N

    什么是串联重复 tandem repeats?:短序列重复同时串联起来。

    食肉类特异性转座元件为什么测不出来?转座子是存在于染色体DNA上可自主复制和位移的基本单位,因为它能够自主复制和位移,所以同串联重复序列难以测得的理由一致。

  • 相关阅读:
    条款41:了解隐式接口和编译期多态
    条款41:了解隐式接口和编译期多态
    虚机制
    条款31:将文件间的编译依存关系降至最低
    条款30:透彻了解inlining的里里外外
    条款28:避免返回handles 指向对象内部成分
    条款27:尽量少做转型动作
    条款26:尽可能延后变量定义式的出现时间
    条款25: 考虑写出一个不抛异常的swap函数
    APP测试工程师面试题:之一
  • 原文地址:https://www.cnblogs.com/yuanjingnan/p/11060713.html
Copyright © 2020-2023  润新知