【百奥云GS专栏】1-全基因组选择介绍

【百奥云GS专栏】1-全基因组选择介绍
目录
什么是基因组选择？

基因组选择（Genomic Selection，简称GS）这一概念由挪威生命科学大学的Theo Meuwissen 教授于2001年提出。它是一种利用覆盖全基因组的高密度分子标记进行选择育种的新方法，可通过构建预测模型，根据基因组估计育种值（Genomic Estimated Breeding Value, GEBV）进行早期个体的预测和选择，从而缩短世代间隔，加快育种进程，节约大量成本。

这一方法尤其对低遗传力以及难以测量的复杂性状具有良好的预测效果，真正实现了通过基因组技术来指导育种实践。该技术目前主要侧重于早期预测，因此又称为基因组预测（Genomic Prediction，简称GP）。

基因组选择技术的发展

众所周知，生物的表现型由基因和环境共同决定。早期的育种过程几乎完全基于表型选择（Phenotype Selection，PS），即通过比较个体表型值，进行优中选优。或者结合系谱信息，利用最佳线性无偏预测（Best Linear Unbiased Prediction，BLUP）等统计学方法进行个体育种值比较来选择（动物中更常用）。这类方法不能进行早期的遗传评估，且当性状表型难以获取或遗传力较低时，准确性不高。

随着分子标记技术的发展，分子标记辅助选择（Marker-assisted Selection, MAS）成为最常用的育种技术之一。该技术利用了表型和部分基因的信息来进行遗传评估，但分子标记数目有限，且只能利用与显著效应的基因或主效数量性状位点（Quantitativetraitlocus, QTL）紧密连锁的标记来进行个体的辅助选择，对于众多微效基因控制的复杂性状则显得无能为力。

高通量测序技术的发展显著降低了分子标记的成本，覆盖全基因组的高密度分子标记使得复杂性状的辅助选择成为可能，基因组选择技术也因此得到迅速发展。相对于PS和MAS，GS可以捕获所有的遗传变异，且无需表型信息即可进行遗传评估，极大地缩短了世代间隔和育种成本（图1）。

从2001年Meuwissen首次提出基因组选择，到2006年Schafferr指出GS在奶牛育种中的巨大应用价值，GS已经成为家畜育种中最热门的研究领域。从2009年开始，奶牛的选育已经几乎完全由GS主导，猪、绵羊、肉牛、鸡等家畜育种也陆续应用GS技术。在植物育种领域，小麦、玉米、水稻等主粮作物，苜蓿、鹰嘴豆等经济作物和林木育种也相继开始应用。

基因组选择的原理和流程

GS利用覆盖全基因组的高密度SNP标记，结合表型记录或系谱记录对个体育种值进行估计，其假定这些标记中至少有一个标记与所有控制性状的QTL处于连锁不平衡（linkage disequilibrium, LD）状态，这样使得每个QTL的效应都可以通过SNP得到反映，将所有标记效应值累加，获得基因组估计育种值。

GS流程包含两个群体，一个是训练群体（又称参考群体），需要同时具有表型和基因型信息，估计标记效应值来构建参考模型；另一个是预测群体（又称候选群体或育种群体），只需要基因型信息，通过构建的参考模型得到估计育种值，从而达到预测表型，进行个体选择的目的（图2）。

与常规的玉米双单倍体（Doubled Haploid，DH）育种相比，GS育种减少了大量无效的测验，成本可减少50%以上，多点试验周期也能大大缩短。下图3展示了一年两季玉米育种的两种方法的流程比较：

基因组选择的模型

统计模型是GS的核心，能极大地影响基因组预测的准确度和效率。根据统计模型的不同，GS模型大体可分为直接法和间接法两大类。

直接法是以个体作为随机效应，参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵，通过迭代法估计方差组分，进而求解混合线性模型，获取待预测个体的估计育种值。根据不同信息构建的亲缘关系矩阵可建立不同的模型，比如以传统系谱矩阵构建的ABLUP模型，以基因型矩阵构建的GBLUP模型，以系谱和基因型结合矩阵构建的ssBLUP模型（single-step BLUP，即一步法BLUP），基于GBLUP压缩个体构建的cBLUP模型以及基于GBLUP区段化标记构建的sBLUP等模型。

间接法则首先在训练群体中估计标记效应，然后结合预测群体的基因型信息将标记效应进行累加，最后获得预测群体的个体估计育种值。间接法以rrBLUP为代表，其假设所有标记效应符合一个正态分布，同时标记效应的方差是一致的，这可能与基因的实际效应值不相符，因而引入贝叶斯的分析方法。根据预先假定基因的数量和基因效应值分布的不同，可以建立不同的贝叶斯模型，如BayesA、BayesB、BayesC、BayesCπ、Bayes LASSO等，其差别主要在于：是否所有标记都有效应值，标记效应是否符合相同分布以及标记效应方差服从何种分布。

直接法以个体为单位，计算效率较高，但是计算准确性略差于间接法；间接法以标记为单位，计算量庞大，且无法实现并行运算，对于讲究时效性的育种而言是个比较大的挑战。

此外，经典机器学习及深度学习方法，如随机森林模型、卷积神经网络等也逐步开始应用于育种实践。

基因组选择的展望

GS的预测能力受到诸多因素的影响，比如群体类型和大小、标记类型和密度、统计模型、性状遗传力、参考群和候选群的遗传关系等等。如何巧妙地通过育种方案设计来平衡或者消除这些因素的影响，达到育种目标仍是一个比较大的挑战。

理论上而言，群体和标记数目越多，GS预测的准确性就越高。但我们需要同时兼顾效率和成本的问题。当群体和标记数目足够大，预测精度会趋近饱和，不会再随数目的增加而大幅提升。标记密度与物种、群体类型和大小有关，比如异花作物所需标记密度一般高于自花作物，自然群体一般要高于双亲群体。因此根据不同的育种要求，应建立相应的模型。

在GS模型方面，还有许多值得探索的地方。比如GS模型目前主要考虑的是加性效应，对于显性效应、互作效应及环境效应等影响未纳入到育种值估计模型中；GS主要用到的是基因组信息，大量的多组学研究结果，如转录组、代谢组等数据利用得不够充分；GS模型现在主要针对的是单一性状的预测，对应多个性状之间的影响未纳入模型。因此，未来对多效应、多组学和多性状等模型的建立以及机器学习算法的优化可能会大大改善GS的预测能力。

表型的准确性和成本也是影响GS应用的重要因素。高通量表型平台（High-Throughput Phenotyping，HTP）可以减少表型调查的成本，同时结合早期测试的基因组和系谱信息，共同用于统计模型，提升准确性。

相比于传统BLUP的稀疏矩阵，利用基因组信息计算的稠密矩阵对混合模型参数估计及模型求解也是一个比较困难的问题，可以通过数学方法或者高性能计算机来简化计算复杂度。相对芯片而言，测序可减少对LD的依赖，得到更丰富的遗传信息，对于亲缘关系较近的群体可通过填充将芯片个体的标记密度填充到测序水平。测序技术的应用将成为全基因组选择新时代的转折点。

总言之，全基因组选择的育种应用虽然仍有一些瓶颈，但它必然是智能育种时代非常重要的一项技术，也是未来育种一个重要的方向，它将极大影响未来育种的方式和进程。

小编今天只是简单地给大家介绍了全基因组选择的一些基因概念和应用，后续会持续推送关于GS方面更详细的内容哦，敬请关注。

【百奥云资料室】栏目简介
随着高通量和自动化技术的应用，动植物育种上都产生和积累了大量的数据。以人工智能(Artificial Intelligence) 、大数据(Big Data)和云计算(Cloud Computing)为核心的`ABC技术将成为育种4.0时代不可或缺的能力。为帮助广大科研人员学习和了解育种数据的分析原理，我们将推出【百奥云资料室】栏目，由小百老师介绍育种上前沿或常用的技术及相关细节，敬请关注！

参考资料

Meuwissen T. H. E. et al., Prediction of total genetic value using genome-wide dense marker maps. Genetics. 2001: 157 1819–1829.
M E Goddard, B J Hayes. Genomic selection. J Anim Breed Genet. 2007 Dec;124(6):323-30.

Javaid A. Bhat et al., Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding.Front Genet. 2016; 7: 221.

José Crossa et al., Genomic Selection in Plant Breeding: Methods, Models, and Perspectives. Trends in Plant Science.2017.

McGowan, M. et al., Ideas in Genomic Selection that Transformed Plant Molecular Breeding: A Review. Preprints 2020, 2020100460.

Yunbi Xu et al., Enhancing Genetic Gain through Genomic Selection: From Livestock to Plants. Plant Communications.2020.

尹立林, 马云龙, 项韬, 朱猛进, 余梅, 李新云, 刘小磊, 赵书红. 全基因组选择模型研究进展及展望. 畜牧兽医学报, 2019, 50(2): 233-242.
相关阅读:
Redis系列 (一) Ubuntu环境下搭建
 HIve高级函数
 SparkCore系列(三)广播变量和累加器
 SparkCore系列(二)rdd聚合操作,rdd之间聚合操作
 SparkCore系列(一)变换操作,查找取值操作
 从零学scala（九）类型参数、高级类型
 sparksql系列(六) SparkSql中UDF、UDAF、UDTF
从零学scala（八）注解、XML处理
 从零学scala（七）集合、模式匹配和样例类
 Linux文件系统，硬链接、软链接、iNode、dentry
原文地址：https://www.cnblogs.com/jessepeng/p/14210751.html

【百奥云GS专栏】1-全基因组选择介绍

什么是基因组选择？

基因组选择技术的发展

基因组选择的原理和流程

基因组选择的模型

基因组选择的展望

参考资料