三代组装小基因组研究综述
近日illumina发布了新的测序仪NovaSeq系列,这个测序是相当的便宜,这个可能对于打开100美元人类基因组时代的大门有巨大的帮助。不过本篇文章小编不讲NovaSeq,感兴趣的自行百度就可以了。
小编目前主要是三代动植物基因组方向,今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章。今天看来这篇文章确实分析的对,可以认为是所谓的领路人吧。
今天分享给大家我的阅读理解,希望大家能有所收获。
One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly
众所周知基因组组装类似将一幅画撕碎,然后再拼接起来,所以很容易理解这样一个道理--撕碎的片段越大越容易拼接起来。虽然现在二代测序价格越来越便宜,但是二代的短片段对于拼接可以说作用非常有限,尤其是对GC富集区、重复区等。相反,长片段测序可以产生Kb以上的片段这些对于小基因组的组装意义巨大。对于研究来说首先可以得到高质量的参考基因组,另外还可以做精度较高的变异检测。接下来我们简单介绍下所谓的长片段测序。
一、背景介绍
根据07年到11年的基因组数据表明0gap和每个碱基准确性都在99.99%以上的基因组所占比例不到35%,这样看来整体的基因组的质量都比较低。这种现状的出现更多的原因在于曾经我们利用的测序手段,短片段组装。另外短片段组装用来研究结构变异作用也很受限,尤其是对大尺度的结构变异。当然这里也不是否认小片段的作用,小片段在于菌株分型、疫情追踪、泛基因组研究上还是有很明显的精度和价格的优势。
针对短片段基因组组装而言,最大的障碍和挑战就是重复序列。重复序列在基因组上有两种类型,第一种就是全基因组分布的序列,另一种就是串联重复序列,这两种重复序列在利用传统图论方法组装的时候会引起较大的问题,很容易导致最后什么都没有组装出来。但是长的read可以简化组装,解决好这些重复区域,甚至直接跨过这些重复区域,因此这样就不存在重复序列干扰组装的问题。
如果这个重复序列太长超过了长片段read的长度,同样还是解决不了基因组中高重复的问题,同样组装还是会有问题,这里大家不用担心,对于微生物的重复序列中rDNA operon 占比最高,大概在77%左右,但是其长度在5-7Kb。以pacbio测序片段为例其平均读长在10kb以上,解决这些重复没有任何压力。数据表明利用三代可以解决80%的微生物基因组。
二、现有的三代测序平台介绍
(1)PacBio
14年还没有sequel,重点介绍RS,RS和sequel除了通量上不一样,其他的小编认为都差不多。
RS测序的准确性平均在82%左右(2011年数据)刚开始RS由于其错误率较高,不能单独使用,只能和其他的数据结合相互补充进行使用。后来经过化学工艺和文库制备的提升,目前准确性在87%左右。另外由于其没有GC偏好,因此利用较高的深度通过统计学模型来提升测序深度是非常有效的,纠正之后准确性在99.99%以上。这些进步使得利用RS直接组装一个小基因组成为可能。
(2)IIumina synthetic long reads ,Moleculo
这个小编不是很了解,虽然其测序片段较长,但是其存在和二代测序同样的的问题------严重的GC偏好,所以基本不用于denovo assembly。
(3)Oxford Nanopore MinION
如果说传统的测序仪类似传统互联网,那么Nanopore就是今天的移动互联网。他开发的便携式的便宜的小测序仪真正的开启了移动测序、便携式测序的时代。虽然目前它的准确性较低,没有普及开。小编认为以后走进千家万户的测序仪就应该是这个样子的。到那个时候,测序就是很大众的事情啦。
三、组装算法
组装这里其实有很多种方法,整体来说有如下几种情况。
1、直接利用OLG(重叠法)通过overlap进行组装的,代表软件是Celera Assembler,这种方法对原始的read的质量要求较高。
2、混合拼接,基本思路是利用二代数据对质量不是很高的read进行纠错提升其质量,然后再利用OLG进行组装。代表软件PBcR、LSC、ECTools等。
3、不借助其他数据进行纠错,通过三代自身进行纠错,然后再利用OLG进行组装。代表软件HGAP、Sprai等。
4、组装提升,组装提升部分分为补洞和重新对scaffold进行连接,排序等。
这里软件前者主要是PBjelly 后者主要是AHA。还有就是利用长片段对二代组装的de Bruijn graph的优化,主要的代表就是二代组装神器Allpaths-LG。
当然以上的方法和软件都有其好的一面和不好的一面,最重要的是要理解什么时候利用哪一个软件。
四、讨论
建议在小基因组测序的时候三代测100x以上,这样对于得到一个高质量的小基因组最为保险,当然如果想利用RS进行甲基化检测另说。还有就是对于三代而言DNA提取和文库制备超级超级重要,一定要多加注意。最后不想说,但是文献中提及到了,数据的分析问题可以利用在线的一些商用的云系统,比如Amazon Web Service,价格5美元以下,WHY??
五、参考文献
One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.