备注:本文主要来源于知乎《全新的泛基因组解决方案》。关于大豆泛基因组文章解读,请看往期记录《大豆(Soybean, Glycine max)泛基因组2020Cell》。
一、研究内容
泛基因组产品采用从头组装的策略进行泛基因组构建,分析内容包括比较基因组分析、核心基因和非必需基因分析、结构变异(SVs)分析和图形结构基因组的构建。具体内容如下:
1.比较基因组分析
泛基因组包含多个材料的基因组数据,非常适合进行材料间的比较基因组分析,挖掘群体/个体材料的特有基因,从而在全基因组水平上了解不同材料间的共性与特性,进而了解其基因组结构、基因功能,探究特有基因与特殊生物学性状的关系,推断物种进化地位及适应性机制。
例如,大豆泛基因组研究[1]中,研究者通过WGD(Whole genome duplication,全基因组复制)分析,发现WGD区域包含较高比例的核心基因和次核心基因,而非WGD区域包含较高比例的非必需基因和特有基因。比较WGD和non-WGD之间的核苷酸多样性,发现WGD区域基因核苷酸多样性显著低于非WGD区域。同时,在非WGD区域发现了更多的SVs,且与非WGD区域相比,WGD区域拥有较少特有SVs。研究结果表明基因组复制可以作为一种重要的遗传力来影响SVs的进化。
图1 大豆WGD与非WGD区域之间的基因和结构变异特征的比较(图片引自文献[1]),A:WGD与非WGD区域之间的基因密度比较。B:WGD和非WGD区域之间重复DNA比例的比较。C:WGD和非WGD区域之间核苷酸多样性的比较。D:WGD和非WGD区域中的基因组成情况。E:WGD和非WGD区域中的结构变化组成情况。F:WGD和非WGD区域之间PAV驱动的单核苷酸突变率比较。
2. 核心基因/非必需基因分析
泛基因组中的基因分为核心基因和非必需基因,不同类型基因在特征和功能上具有明显差异,通过对不同类型基因集的比较,可以进一步揭示物种的基因组变化和适应性机制。
泛基因组大小模拟
通过泛基因集的大小模拟(即泛基因和核心基因累计分析),可以预测该物种泛基集的理论大小、挖掘个体特有基因、了解个体基因组成、明确物种核心基因和非必需基因的占比等。
例如,大豆泛基因组研究[1]中,研究者对核心基因和非必需基因数目进行模拟,发现总基因随着新基因组的加入而增加,并在n=25时接近平缓,表明这27份大豆材料非常具有代表性,已包含绝大多数的大豆基因信息。此外,短柄草[2]和番茄[3]等泛基因组研究也做了类似的分析。
图2 大豆核心基因和非必需基因分析 A:泛基因组和核心基因组中基因家族数目随大豆基因组数目增加的变化情况。B:泛基因组和个体基因组的基因家族组成。(图片引自文献[1])
核心基因/非必需基因功能富集
通过功能富集分析,可以直观了解不同类型基因集的功能,有助于挖掘影响特殊生物学性状形成的特有基因资源。
例如,大豆泛基因组研究[1]中,Pfam富集分析和GO富集分析显示,核心基因在与生长、免疫、生殖、细胞发生等相关的生物学过程中富集,而非必需和特有基因在生物和非生物胁迫响应过程中富集。KEGG通路分析表明,核心基因富含与基础代谢和次生代谢产物生物合成有关的途径,非必需基因在特定代谢相关的途径富集。
此外,短柄草[2]、番茄[3]、甘蓝[4]等泛基因组研究均有类似发现。
图3 大豆核心基因和非必需基因功能富集分析A:核心和非必需基因的Pfam富集。B:核心和非必需基因的GO分析。C:核心和非必需基因的KEGG分析。(图片引自文献[1])
核心基因/非必需基因保守性分析
对不同类型基因集进行保守性分析,有助于挖掘适应性进化或驯化中发挥关键作用的基因。
例如,大豆泛基因组研究[1]中,对不同类型的基因进行保守性比较,结果表明含有InterPro结构域的核心基因和次核心基因远远高于非必需基因和特有基因,非必需基因的核苷酸多样性(π)和dN / dS (非同义替换率与同义替换率的的比值)均高于核心基因,这些结果表明核心基因比非必需基因在功能上更保守。短柄草泛基因组研究[2]也有类似的发现。
图4 大豆核心基因和非必需基因保守性比较左图:核心基因和非必需基因中具有InterPro结构域的基因比例。中间图及右图:核心基因和非必需基因的核苷酸多样性(π)和dN / dS 比较。(图片引自文献[1])
核心基因/非必需基因与重复序列相关性分析
研究表明,非必需基因更可能在重复序列区域富集。对不同类型基因集所在的重复区域进行统计。
例如,短柄草泛基因组研究[2]中,研究者发现染色体上非必需基因与核心基因的比率与种内TE活性高度相关,在染色体的着丝粒周围区域,非必需基因与核心基因的比率更高。甘蓝泛基因组研究[4]中也有类似的发现,与核心基因相比,非必需基因周围具有较高TE密度。
图5 核心基因和非必需基因与重复序列相关性左图:短柄草染色体的着丝粒周围区域,核心基因与非必需基因的分布情况。右图:甘蓝核心和非必需基因TE含量比较。(图片引自文献[2,4])
核心基因/非必需基因表达水平分析
核心基因与非必需基因功能不同,表达量也有差异。
例如,短柄草泛基因组研究[2]中,研究者发现与非必需基因相比,核心基因通常有更高表达水平,并且在组织中更广泛地表达。番茄泛基因组研究[3]也做有类似的发现。
图6 短柄草核心基因和非必需基因表达比较 左图:核心基因与Shell基因的表达水平比较。右图:核心基因在与Shell基因的在多种组织中的表达情况。(图片引自文献[2])
3.结构变异分析
相比于原核生物基因组主要由基因序列组成,真核生物基因组中有超过50%的基因组可能是基因间的,并且基因序列本身还包含内含子。因此,真核生物泛基因组除了要关注基因外,也应该关注序列的变异。根据泛基因组进行结构变异分析,可以深入挖掘重要性状的调控基因,解析表型多样性形成的遗传基础。
SVs特征分析
基于基因组序列比对进行基因组SVs的检测,可以对SVs特征进行分析,如对SVs类型、长度分布、基因组分布、重复含量进行比较等。番茄结构变异研究[5]中,研究者构建了最全面的pan-SV基因组,并对SVs的特征进行详细分析,结果表明大多数SVs相对较小,SVs通常由转座子和相关重复序列组成或产生。大豆泛基因组研究[1]也有类似内容。
图7 SVs的特征分布左图:番茄不同大小SVs的检测频率分布图及不同类型SVs的长度分布图。右图:番茄不同类型SVs的重复含量分布。(图片引自文献[5])
核心/非必需SVs累计分析
将所有基因组中整合得到的非冗余SVs,同样基于核心基因和非必须基因类似的策略进行核心和非必需SVs划分和比较。通过核心和非必需SVs累计曲线,可以预测该物种泛基组的理论大小、挖掘个体特有结构变异。
例如,大豆泛基因组研究[1]中,研究者根据SVs的等位基因频率,将SVs分为4类:核心SVs、次核心SVs、非必需SVs或特有SVs。与核心基因和非必需基因的累计分布模式相似,非冗余SVs集随着样本的加入而增长,并且趋于平缓。同时,核心SVs集逐渐减少,最终有130个SVs为所有样本共有。番茄结构变异研究[5]也有类似的SVs累计分布趋势的发现。
图8 核心和非必需SVs累计分析 左图:大豆核心和非必需SVs累计分析。右图:番茄核心和非必需SVs累计分析。(图片引自文献[1,5])
图形结构基因组构建
在基因组从头组装的基础上,把该物种的所有遗传变异的信息都添加到参考基因组中,表示为含有替代路径的图形结构,从而进行图形结构泛基因构建,该泛基因组极大的涵盖了个体间的差异信息,为物种研究提供更全面的遗传信息。例如,大豆泛基因组研究[1]首次采用了图形结构的泛基因组构建方法,打破了传统线性基因组的存储形式,展示了物种更全面的遗传信息,为后续基因组学的其他研究奠定良好的基础。
图9 图形结构基因组构建(图片引自文献[6])
SVs对基因结构的影响
通过泛基因组序列及基因结构分析,不仅可以检测到先前报道的等位基因,而且可以发现新的基因结构变异,包括基因融合。
例如,大豆泛基因组研究[1]发现开花基因E3 基因结构变异导致其自身移码甚至与其他基因融合,从而影响大豆的开花。
图10 E3 在不同大豆材料中的结构变异 A:E3 在基因组中的物理位置。B:不同种质中E3的单倍型。C:13.3 kb的缺失导致单倍型E3-tr 材料中SoyZH13_19G210500基因丢失和E3 (SoyZH13_19G210400)与其邻近基因SoyZH13_19G210600的基因融合。(图片引自文献[1])
SVs对基因表达的影响
通过对SVs所在的区域进行分类展示,并结合转录组数据对基因表达进行分析,有助于挖掘影响基因表达的关键SVs。
例如,番茄结构变异研究[5]通过检测有和无SVs时相关基因的差异表达程度,来检测受SVs影响的表达基因。结果发现在21,156个SV-基因对中发现数百个显著的表达改变。研究表明结构变异通过改变基因剂量效应和表达水平,从而影响果实的风味,大小和产量。
图11 番茄SVs对基因表达的影响 左图:番茄材料中不同基因组特征SVs的百分比。右图:受不同类型SVs影响的差异表达基因的数量情况。(图片引自文献[5])
二、技术策略
样本选择
为全面捕获物种所有的基因组信息,建议基于经验或群体结构信息选择最具代表性的个体进行泛基因组构建,推荐样本个数≥5个,具体可根据物种基因组大小、复杂度及群体复杂度进行调整。
大豆泛基因组研究[1]中,研究者通过2,898份大豆的重测序和进化树构建,选择了26份在系统发育关系和地理分布方面最具代表性的材料进行泛基因组构建。大麦泛基因组研究[7] 中,研究者通过19,778份大麦种质的基因分型数据的PCA(包含不同地理来源、行类型、生长习性等材料)选择了20份大麦来代表其遗传多样性。
图12 20份代表性大麦的材料选择(图片引自文献[7])
测序策略
推荐采用PacBio HiFi测序,读长长且准确,测序深度≥15X/样本。
HiFi组装作为组装界的新秀,具有组装周期短,准确性高,连续性好,简单基因组和复杂基因组通吃的特点,对于泛基因组这样的大样本量基因组组装尤其合适,大幅缩短组装周期,提高组装准确性和连续性。
缺点是贵。目前真正用HiFi来做泛基因组的还是很少,但二代和三代都有,二代组装相对来说比较碎,可能研究不了太深的问题。
图13 HiFi测序深度与组装连续性的关系(图片引自文献[8])
参考文献:
1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.
2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.
3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.
4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.
5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.
6. Tao Yongfu, Jordan David R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant, 2020.
7. Jayakodi Murukarthick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Reveals the Hidden Legacy of Mutation Breeding[J]. Nature, 2020.
8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology, 2019.