assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats

assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats

（组装方面）：SOAPdenovo ，因为采用de Bruijn graph algorithm算法和stepwise strategy ，所以排错能力高，所以我们获得高质量数据。

de Bruijn graph algorithm算法？？？？

reads到contig ：多个reads比对，比对后reads之间有重叠（overlap）区，拼接获得的序列称为Contig。

contig到scaffold：把mate-pair得到的用于确立位置的短reads和insert组合，将原本孤立的contig按序前后连接，其中会调整contig方向以及contig可能会存在开口，得到一个完整的scafflod。

(组装1).assembled the short reads:得到pair-end短reads，overlap（比对效果好，没有模糊repeat）后获得contig；因为没有使用long insert-size paired-end libraries（因为long insert-size paired-end libraries会积累错误序列的overlap），所以我们得到很好contig（由n50长度可知）

因为长序列会积累错误序列的overlap，所以短序列排出来准确性高

测序深度（x）：指测序得到的总碱基数(并不是连成序列)与待测基因组大小的比值

39-fold coverage short-reads：测试深度为39x：总数据量/基因长度

初次判定的总数据量可能估计基因组大小的100倍，因为物理上的因素（部分序列被酶降解等）最后得到73X

覆盖度（%）：指测序获得的序列占整个基因组的比例，测序depth和coverage成倒数关系

（组装2）join the contigs into scaffolds：在可能为gap的区域添N，将insert一端mapping独立的contig；一端定位gap区域并且mapping unmapping end（mate-pair）。这样就得到了scaffold1（40kb）；因为在close了所有能close的gap之后，仍有2.4%的gap（因为这些gap中约90%含有食肉类特异性转座元件和串联重复序列（原因一：因为短串联重复序列很难用现有的匹配算法拼接策略克服，）。具有较高的单元标识和大于序列读取长度的长度，无法与当前数据进行组装。）（原因二：assembly丢失，因为狗与人序列的相似性，狗的串联重复序列占比少）

estimated intra-scaffold gaps：就是未测得的添N

什么是串联重复 tandem repeats？：短序列重复同时串联起来。

食肉类特异性转座元件为什么测不出来？转座子是存在于染色体DNA上可自主复制和位移的基本单位，因为它能够自主复制和位移，所以同串联重复序列难以测得的理由一致。
相关阅读:
NLP——天池新闻文本分类基于深度学习的文本表示
 NLP——天池新闻文本分类 Task4：fasttext深度学习
 NLP——天池新闻文本分类 TASK3
Python基础Task3：异常处理
 Python基础TASK2：条件语句与循环语句
 React开发入门：以开发Todo List为例
 [MIT 18.06 线性代数]Intordution to Vectors向量初体验
 [Java Tutorial学习分享]接口与继承
 FutureTask源码分析（JDK7）
KMP（超详细复杂度分析）
原文地址：https://www.cnblogs.com/yuanjingnan/p/11060713.html