• 解析Illumina+PacBio组装策略


    解析Illumina+PacBio组装策略

      (2016-12-08 13:21:58)
       

    基于IlluminaPacBio平台的二加三组装策略,巧妙的融合了PacBio平台超长读长、无PCR扩增和Illumina平台成本低等优势,成为目前基因组研究最经济有效的方式。那么问题来了,这个二加三策略究竟是如何利用两种平台测序数据的?是以二代数据为主还是以三代数据为主?今天,小编将为您揭晓答案。

    方案一:以三代数据为主,通过三代数据进行组装,使用二代数据对三代数据进行纠错。

    这是目前大部分已发表的文章使用的组装策略。由于PacBio第三代测序成本稍高但测序数据可轻松跨越复杂基因组区域,Illumina平台数据稳定可靠,重复性强,数据质量高,成本低,通过此方案结合使用两种平台测序数据,不仅保证了组装结果的准确性,还充分利用了PacBio超长读长的优势,这将十分有利于动植物基因组高GC含量序列及重复序列单元的拼接组装。

    案例解析一:大猩猩苏茜基因组组装

     

    第一次大猩猩基因组组装一只名为Kamilah的雌性西部低地大猩猩,采用短读长和Sanger测序数据组装,发表于2012年的《Nature》杂志。20164月发表的苏茜基因组组装文章,采用以PacBio测序为主的二加三组装策略,极大的提升了组装效果,让大猩猩又火了一把。

    两个版本大猩猩基因组比较

    文章发表时间

    组装策略

    Contig N50

    Scaffold N50

    2012

    Illumina+Sanger

    11.8Kb

    914Kb

    2016

    PacBio+Illumina

    9.6Mb

    23.1Mb

     

     

    组装流程

    Step 1: PacBio RS II 平台,P6-C4试剂,20Kb文库,74.8x测序深度,组装后的基因组大小为3.1Gb,其中contig N50:9.6Mbscaffold N50:23.1Mb,大多较短的contigs(<100 Kb)包含着丝粒或端粒卫星序列或折叠的片段重复。其组装连续性相对于最初的大猩猩组装提升819倍,相对于最近的组装结果提升180倍,并且填补了94%gap

     

    Step2: Illumina HiSeq平台,对苏茜和另外6只大猩猩进行全基因组测序,通过对比进行错误矫正,并进行错误评估,从而减少误差,保证组装的准确率。

    解析Illumina+PacBio组装策略

    大猩猩基因组组装示意图

     

    案例解析二:复活草基因组组装

    复活草极其耐旱,它具有通过脱水变成完全干燥、同时保持在有水时再复活的能力。核型为2n = 2x = 18,基因组大小约245Mb。获得高度耐旱物种的基因组草图可有效推动作物改良,为植物比较基因组学研究团队提供有价值的资源


    组装流程

    Step 1: PacBio RS II 平台,P6-C4试剂盒,15-20Kb文库,32SMRT cells72×测序深度组装获得650 ContigsContig N50达到2.4Mb

    Step 2Illumina HiSeq平台,570bp1kb3kb文库,200X测序深度,评估PacBio组装的错误率以及基因组的杂合度

    Step 3BioNano Irys系统,构建基因组图谱,对Contigs进行anchoringscaffolding,最终组装完成244Mb,即获得>99.6%的基因组序列信息Contig N50达到2.4MbScaffold N50达到7.1Mb

     

                                                                   解析Illumina+PacBio组装策略

    PacBio跨越复活草复杂区域

    方案二:以二代数据为主,使用二代数据组装得到Contig,然后使用三代数据进行Scaffolding Gapfilling

    由于该方案仍是以短读长来进行基因组组装,所以在组装重复序列单元和复杂区域时,仍然难以实现完美组装。但是该方案使用的三代数据较少,成本会有显著降低。所以该方案适合基因组序列比较简单、科研预算较少的研究者。

    案例解析:苹果基因组组装

    苹果富含丰富的营养和风味,是世界四大水果之冠,高质量的苹果基因组序列对于分子育种非常关键。作者采用以Illumina测序为主的二加三组装策略de novo测序和拼接,组装完成苹果参考基因组序列,并通过基因注释分析发现,该品种基因组中的串联重复序列达382 Mb,覆盖了苹果基因组的60%,所以如果单独使用Illumina数据进行组装,即使是高深度也无法获得满意的组装效果。

    解析Illumina+PacBio组装策略
    技术路线 

    组装流程

    Step 1:Illumina  HiSeq平台,76 Gb~102×)全基因组测序数据,组装全长为1.05 GbContig N50 :534 bp,组装效果受到杂合度和重复序列的影响,组装效果较差

    Step 2:PacBio RS21.7 Gb~29×),632.4 Mb数据,结合Illumina数据组装后,Contig N50 : 111,619  bp,覆盖率达预估苹果基因组(701 Mb)的90%。由于PacBio平台的使用,其Contig N50相比于之前发表的 16.1 kb提升了约6.9倍。

    小结

    无论是从组装效果还是发表文章情况来看,以三代为主的二加三组装策略具有明显优势。所以在科研经费充足的情况下,小编建议优先选择方案一进行基因组组装,如果您的经费再允许,请加上BioNano测序数据,组装效果和准确度得到显著提升。

    贝瑞和康作为三代测序技术的领导者,同时拥有PacBio SequelBioNano平台,并且Sequel v1.2.1试剂已经取得理想的数据产出,敬请关注后续相关报道。如需咨询请联系当地销售,或致电010-84409702/电子邮件sequence@berrygenomics.com

    参考文献

    1.Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016.

    2.VanBuren R, Bryant D, Michael TP, Mockler TC. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015.

    3.Xuewei Li, et al. Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica. GigaScience 2016.

  • 相关阅读:
    web测试方法总结
    我认为测试应该掌握的SQL语句
    monkey(1)
    冒烟测试
    PC客户端测试总结
    常见测试点总结
    测试基本概念
    测试主要环节
    手机app常见bug积累
    MySQL面试题集锦
  • 原文地址:https://www.cnblogs.com/wangprince2017/p/10874846.html
Copyright © 2020-2023  润新知