组装策略
二代测序平台如Illumina、BGI,稳定可靠,数据质量高,成本低,读长短。
三代测序平台如PacBio、Nanopore,超长读长、无PCR扩增,错误率高,成本高。
现在物种的简单基因组基本已完成大多,纯二代组装已经没什么意义,复杂基因组或者高质量基因组基本都是三代测序为主。
由于经费限制,现在多为“”二代+三代“”以下两种组合策略:
- 以三代为主组装,二代纠错;
- 以二代为主组装到contig,三代scaffolding和gapfilling。
目前第一种策略为主流。
辅助技术
辅助组装解决的关键问题:contig/scaffold的顺序和朝向。
-
BioNano
光学图谱技术是一个利用单个DNA分子基因组限制性内切酶图谱快速生成高分辨率、有序的全基因组限制性内切酶图谱的方法。
目的是增加基因组Scaffold长度;减少Scaffold数量;对已组装的基因组进行纠错;检测大片段结构变异。 -
Hi-C
一般为PE150测序。通过染色体构象捕获(3C)来确定全基因组范围内染色质DNA在空间位置上的关系,分群聚类。
一般用来连接scaffold到染色体水平。如果不借助遗传图将基因组挂载到染色体水平。每一个基因组都需要一个Hi-C。 -
遗传图谱
一般连接染色体。不同的遗传图谱结果可能有差异,可以将多个图谱进行整合。 -
转录组
先组装转录组,再比对到参考基因组,更多的是用于辅助基因组注释。
一般为PE150或三代全长Iso-seq,测多个不同组织。 -
10X genomics
同一长片段的reads加上相同的barcode信息,即linked-reads,从而提高reads的长度,本质上还是二代Illlumina测序。一般将short-read测序和10X的linked-read结合,可独立于三代。
随着三代的准确性提高和成本降低,未来基因组组装的标配:
PacBio纯三代组装contig + 光学图谱进行纠错与super scaffold组装 + 遗传图谱或HiC进行染色体组装。
三代+光学+Hi-C策略示意图:
PacBio补充
相比于Nanopore(电信号),PacBio(荧光信号)用得更多,主要有两种模式:
- CLR(20-30kb),耗时长,准确性较低
- CCS(15kb,HiFi),快,自身矫正,准确性较高
测序深度?
自然越深越好,经费不足,可能20~50X,充足70 ~100X。
二代测序的深度最好能达100X,而且一般要结合不同大小片段文库(PE和Mate)。
流程
主要分析内容
组装
- 质控
- 三代组装成contig
- contig组装scaffold、chromosome
- 纠错
- 去污染(线粒体和叶绿体)
评估
- contig、scaffold N50
- 染色体数目
- BUSCO完整性评估
注释
- 重复序列
- 基因结构
- 基因功能
- 非编码RNA
比较基因组
- 基因家族聚类
- 系统进化树
- 分歧时间估算
- 基因家族扩张与收缩
- 基因组共线性
- 正选择
- 全基因组复制
解析Illumina+PacBio组装策略
10X Genomics vs. PacBioSOAPdenovo组装软件使用记录HiFi Reads基因组组装:快、准、狠
Pacbio三代基因组组装简介
光学图谱辅助基因组组装