1. 什么是单倍型?
同源染色体:同源染色体,一个来自母本,一个来自于父本。
单倍型:单倍体基因型的简称。遗传学上指在单条染色体上一系列遗传变异位点的组合。
2. 单倍型组装的意义?
目前,大多数二倍体基因组组装都忽略了同源染色体之间的差异,将基因组组装成一个假的单倍体序列,这是二倍体类型的组装的人为共识。这种人为的共识可能导致基因注释的不精确和生物学解释的错误。
为了深入研究的需要,更多的物种需要将来自父母的遗传信息都获得,因此参考基因组就需要获得两个单倍体基因组,也就是单倍型基因组。
目前单倍型技术主要应用领域包括:
- 在医学上探索致病机理,挖掘致病基因,寻找疾病治疗新方法;
- 在群体遗传学上分析等位基因间差异,追踪个体亲缘关系,了解生物迁徙模式和进化历史;
- 在农业上发掘优异等位基因变异,探索杂种优势理论等。
3. 如何进行单倍型组装?
早期已经提出了几种算法来生成单倍型解析的程序集,也称为分阶段程序集。FALCON-Unzip,Supernova
等使用相对短距离的序列数据进行定相,但只能解析高达9Mb的单倍型人类样品。这些方法无法逐步完成着丝粒或长重复。扩展FALCON-Unzip
的FALCON-Phase
使用Hi-C连接相控序列模块,可以生成更长的单倍型,但无法实现染色体长的定相。
近年出现了几种有效的单倍型组装方法。
方法1:Trio-binning (Illumina+Pacbio)
由美国国家人类基因组研究所、Pacific Biosciences公司及阿德莱德大学等单位的研究人员开发,发表在2018年10月22日的Nature Biotechnology杂志上。
Trio binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。
组装方法
- 1)测序:两个亲本分别二代Illumina测序,对F1代进行三代PacBio测序。
- 2)分割三代数据:使用两个亲本的二代数据获取单倍型特异性k-mers。利用特异性k-mer将三代数据分割
- 3)利用分割的数据分别组装
优缺点
Trio binning是一种简便、准确、高效的二倍体参考基因组组装方法。在拟南芥、人类及牛单倍型组装中表现良好,但Trio binning对样本具有很高的要求,必须能够获取双亲的二代数据。
在进行数据分割时一部分杂合子reads不能明确地划分为亲本单倍型:如果双亲在某个位点上都是杂合,那么这个位点无法给reads提供有效的kmer信息,并且不能被唯一地分配给一个亲本单倍型;同样如果父本在一个位点是杂合子,而母本是纯合的,从母本单倍型来看也不能分割。在标准的trio-binning中,不能被区分的杂合reads在两个亲本数据集中都会使用。因此,这两个等位基因可能存在于一个单倍型组合中,并引入错误。另外还可能存在将reads错误划分到其中一个亲本的情况。
方法2:DipAsm(HiFi+Hi-C)
由李恒、Evan E. Eichler、George M. Church等人联合开发的新的基因组组装方法,发表在2020年12月7日的Nat Biotechnol 杂志上。
DipAsm使用HiFi数据和Hi-C数据,可以在1天之内生成染色体规模的分相组装,具有98-99%的准确性。
组装方法
- 1)Peregrine:Pacbio HiFi reads 组装成不分相位的congtig;
- 2)HiRise / 3D-DNA:结合Hi-C数据生成不分相位的scaffold;
- 3)DeepVariant :Hi-C reads mapping到scaffold上call 杂合snp;
- 4)WhatsHap和HapCUT2:处理HiFi reads和Hi-C reads杂合snp;
- 5)WhatsHap:根据相位分割reads;
- 6)Peregrine:分割的reads分别组装。
优缺点
DipAsm将促进高质量的精准医学以及个体单倍型变异和种群多样性的研究,但DipAsm使用SNP信息进行定相,这对于长度长数据准确性要求高,也就是需要使用 PacBio HiFi,否则将增加SNP的错误率,部分涉及长SV的高度杂合区域会出现错误。
方法3:strand seq + long reads
由德国杜塞尔多夫海因里希·海涅大学Tobias Marschall和美国华盛顿大学Evan E. Eichler合作,使用单细胞链测序和长读取实现了亲本数据非依赖的全阶段人基因组组装,2020年12月7日发表在Nature Biotechnology上。
组装方法:
Strand-seq具有三个重要功能:
- 1)它可以按染色体对reads或contig进行排序;
- 2)它可以定序和定向contig;
- 3)它提供了一个染色体范围内的相位信号,而与物理距离无关。
步骤:
-
- 使用长reads组装成不分相位的contig;
-
- Strand-seq比对到congtig上,contig进行排序和连接,形成染色体;
-
- 长reads mapping到 染色体上call SNVs;
-
- WhatsHap:利用SNVs 分割长reads;
-
- wtdbg2 , Flye, Canu or Peregrine2:分割的reads分别组装。
优缺点:
组装准确(质量值> 40)且高度连续(contig N50> 23 Mbp)、转换错误率低(0.17%)、并可提供了全相单核苷酸变体、插入缺失和结构变体等。
Strand-seq是一种单细胞技术,它不需要亲本或配子,这种技术利用基因图谱技术对染色体、单倍型和scaffold的长序列进行聚类; 然而,生成Strand-seq数据的困难限制了它在少数模型物种中的应用。