组装技术的新进展
1、测序和组装
很难想象今天距离提出测序和组装已经有40年啦。我们回头来看一下这个问题。
“With modern fast sequencing techniques and suitable computer programs it is now possible to sequence whole genomes without the need of restriction maps.”
“If the 5′ end of the sequence from one gel reading is the same as the 3′ end of the sequence from another the data is said to overlap. If the overlap is of sufficient length to distinguish it from being a repeat in the sequence the two sequences must be contiguous. The data from the two gel readings can then be joined to form one longer continuous sequence.”
众所周知,这个问题说起来很简单,就是序列如何测序组装的问题,但是这确实是一个NP-hard问题,非常难解决。
2、发展历史
从sanger测序仅仅利用与病毒的组装,到可以商业化的组装Mb级别的细菌,到果蝇。
这些进步依赖计算机并行技术和早期的组装工具。随着NGS测序技术的发展。测序从sanger变成了更短的illumina短reads。此时组装的方法也随之变化。组装更多的利用 de Bruijn graph 方法。比如Velvet 等这些软件火起来了。随着Pacbio 三代测序技术的普及,基于overlap的软件又开始抬头。
目前现有的测序技术包括sanger、NGS、PacBio、Nanopore等,甚至包括搭建骨架的光学图谱技术,Hi-C。这些使得我们得到一个完整的准确的基因组成为可能。
多种测序技术相结合的案例也有很多,比如山羊基因组,很多公司都在做宣传的山羊利器,就是综合NGS+三代+光学+Hi-C+遗传图。水稻基因组三代+遗传图等等。
3、那么问题来了,为啥要获取一个高质量的基因组呢,高质量的基因组的意义在于?
高质量的基因组可以清晰的显示重复结构和变化,而利用二代对于常见的重复区域难以跨过。这样得到的contig 比较碎,影响后面的分析结果。
三代测序技术平均长度在10Kb以上,这个长度比微生物和脊椎动物常见重复序列要长,因此三代测序技术在解决微生物和脊椎动物身上没什么问题,对于高重复的植物需要进行详细的评估,并借助其他测序手段,参考水稻基因组。通过和其他技术结合,比如光学,HiC等。通过这些最新技术,物种的基本区域都可以搞定,只有最大的分段重复和异色区域仍然是一个挑战。
4、常用的长片段组装软件
目前常用的针对长片段组装的软件有三个:Canu( Koren等人,2017),HINGE(Kamath等人,2017)和Racon(Vaser等人,2017)。
5、组装搞定了,生信人会不会失业?
幸运的是,即使序列组合被新技术淘汰,生物信息学家也将有大量的工作。低成本,完整的基因组将使生信人有很多的精力去进行更为大尺度大视角上的比较基因组学等研究,这样需要开发更多工具和算法。
6、期许
希望随着技术的不断进步,我们可以少花点时间来组装基因组,我们可以花更多的时间来探索它们的奇妙进化和功能复杂性。
7、参考文献
New advances in sequence assembly.