解析Illumina+PacBio组装策略

解析Illumina+PacBio组装策略

解析Illumina+PacBio组装策略
(2016-12-08 13:21:58)
转载▼

基于Illumina和PacBio平台的“二加三”组装策略，巧妙的融合了PacBio平台超长读长、无PCR扩增和Illumina平台成本低等优势，成为目前基因组研究最经济有效的方式。那么问题来了，这个“二加三”策略究竟是如何利用两种平台测序数据的？是以二代数据为主还是以三代数据为主？今天，小编将为您揭晓答案。

方案一：以三代数据为主，通过三代数据进行组装，使用二代数据对三代数据进行纠错。

这是目前大部分已发表的文章使用的组装策略。由于PacBio第三代测序成本稍高但测序数据可轻松跨越复杂基因组区域，而Illumina平台数据稳定可靠，重复性强，数据质量高，成本低，通过此方案结合使用两种平台测序数据，不仅保证了组装结果的准确性，还充分利用了PacBio超长读长的优势，这将十分有利于动植物基因组高GC含量序列及重复序列单元的拼接组装。

案例解析一：大猩猩苏茜基因组组装

第一次大猩猩基因组组装以一只名为Kamilah的雌性西部低地大猩猩，采用短读长和Sanger测序数据组装，发表于2012年的《Nature》杂志。2016年4月发表的苏茜基因组组装文章，采用以PacBio测序为主的“二加三”组装策略，极大的提升了组装效果，让大猩猩又火了一把。

两个版本大猩猩基因组比较

文章发表时间

组装策略

Contig N50

Scaffold N50

2012

Illumina+Sanger

11.8Kb

914Kb

2016

PacBio+Illumina

9.6Mb

23.1Mb

组装流程

Step 1: PacBio RS II 平台，P6-C4试剂，20Kb文库，74.8x测序深度，组装后的基因组大小为3.1Gb，其中contig N50:9.6Mb，scaffold N50:23.1Mb，大多较短的contigs（＜100 Kb）包含着丝粒或端粒卫星序列或折叠的片段重复。其组装连续性相对于最初的大猩猩组装提升819倍，相对于最近的组装结果提升180倍，并且填补了94%的gap；

Step2: Illumina HiSeq平台，对苏茜和另外6只大猩猩进行全基因组测序，通过对比进行错误矫正，并进行错误评估，从而减少误差，保证组装的准确率。

大猩猩基因组组装示意图

案例解析二：复活草基因组组装

复活草极其耐旱，它具有通过脱水变成完全干燥、同时保持在有水时再复活的能力。核型为2n = 2x = 18，基因组大小约245Mb。获得高度耐旱物种的基因组草图可有效推动作物改良，为植物比较基因组学研究团队提供有价值的资源。

组装流程

Step 1: PacBio RS II 平台，P6-C4试剂盒，15-20Kb文库，32个SMRT cells，72×测序深度，组装获得650 Contigs，Contig N50达到2.4Mb；

Step 2：Illumina HiSeq平台，570bp、1kb、3kb文库，200X测序深度，评估PacBio组装的错误率以及基因组的杂合度；

Step 3：BioNano Irys系统，构建基因组图谱，对Contigs进行anchoring和scaffolding，最终组装完成244Mb，即获得＞99.6%的基因组序列信息，Contig N50达到2.4Mb，Scaffold N50达到7.1Mb。

PacBio跨越复活草复杂区域

方案二：以二代数据为主，使用二代数据组装得到Contig，然后使用三代数据进行Scaffolding 和Gapfilling。

由于该方案仍是以短读长来进行基因组组装，所以在组装重复序列单元和复杂区域时，仍然难以实现完美组装。但是该方案使用的三代数据较少，成本会有显著降低。所以该方案适合基因组序列比较简单、科研预算较少的研究者。

案例解析：苹果基因组组装

苹果富含丰富的营养和风味，是世界四大水果之冠，高质量的苹果基因组序列对于分子育种非常关键。作者采用以Illumina测序为主的“二加三”组装策略de novo测序和拼接，组装完成苹果参考基因组序列，并通过基因注释分析发现，该品种基因组中的串联重复序列达382 Mb，覆盖了苹果基因组的60%，所以如果单独使用Illumina数据进行组装，即使是高深度也无法获得满意的组装效果。

技术路线

组装流程

Step 1:Illumina HiSeq平台，76 Gb（~102×）全基因组测序数据，组装全长为1.05 Gb，Contig N50 :534 bp，组装效果受到杂合度和重复序列的影响，组装效果较差；

Step 2:PacBio RS，21.7 Gb（~29×），632.4 Mb数据，结合Illumina数据组装后，Contig N50 : 111,619 bp，覆盖率达预估苹果基因组（701 Mb）的90%。由于PacBio平台的使用，其Contig N50相比于之前发表的 16.1 kb提升了约6.9倍。

小结

无论是从组装效果还是发表文章情况来看，以三代为主的“二加三”组装策略具有明显优势。所以在科研经费充足的情况下，小编建议优先选择方案一进行基因组组装，如果您的经费再允许，请加上BioNano测序数据，组装效果和准确度可得到显著提升。

贝瑞和康作为三代测序技术的领导者，同时拥有PacBio Sequel和BioNano平台，并且Sequel v1.2.1试剂已经取得理想的数据产出，敬请关注后续相关报道。如需咨询请联系当地销售，或致电010-84409702/电子邮件sequence@berrygenomics.com。

参考文献

1.Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016.

2.VanBuren R, Bryant D, Michael TP, Mockler TC. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015.

3.Xuewei Li, et al. Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica. GigaScience 2016.
相关阅读:
web测试方法总结
 我认为测试应该掌握的SQL语句
 monkey（1）
冒烟测试
 PC客户端测试总结
 常见测试点总结
 测试基本概念
 测试主要环节
 手机app常见bug积累
 MySQL面试题集锦
原文地址：https://www.cnblogs.com/wangprince2017/p/10874846.html

热门文章
多态
 抽象
 类的继承
 Static静态修饰符
 对象与类
 Java基础语法
 Java基础一
 开通第一天
 JAVA的环境配置
 使用siege进行Web压力测试

文章发表时间	组装策略	Contig N50	Scaffold N50
2012	Illumina+Sanger	11.8Kb	914Kb
2016	PacBio+Illumina	9.6Mb	23.1Mb