BQSR vs. VQSR
BQSR (Base Quality Score Recalibration)表示碱基质量值重校正。简言之,这是一个检测系统性错误的数据预处理步骤,用于检查测序仪估计每个碱基检测的准确性。
主要考虑了碱基在reads中的位置、上下文环境和原始质量值这三个因素,首先计算出原始碱基质量中错误的分布模型,然后利用这个模型对碱基质量校正,生成新的碱基质量值。
VQSR (Variant Quality Score Recalibration)代表变异质量值重校正。简言之,它是一种变异过滤方法,通过机器学习利用多个不同的数据特征训练一个高斯混合模型对变异数据进行质控。
BQSR和VQSR除了名字相似外,没有啥关系。一个在流程上游,一个在下游,官方介绍也对这个易混淆的概念进行了解释和区分。
BQSR:https://gatk.broadinstitute.org/hc/en-us/articles/360035531612-Variant-Quality-Score-Recalibration-VQSR-
VQSR:https://gatk.broadinstitute.org/hc/en-us/articles/360035890531-Base-Quality-Score-Recalibration-BQSR-
一些观点
GATK流程主要针对人类和小鼠数据开发,因此在针对非模式动植物的变异检测时,可能会存在一些问题。
对于非模式生物而言,GATK流程最大的问题在于缺少突变真集。一般解决方案是采用缺少BQSR步骤的流程先对样本群进行变异检测,而后对变异结果进行硬过滤,然后将此结果作为真集,对样本比对结果进行校正,再进行变异检测。问题是,现在的测序数据质量已足够高(尤其是二代),还有必要做BQSR吗?反正小编在多个实践项目中,都是直接pass这一步。
贴一个非模式生物的GATK BQSR流程:https://evodify.com/gatk-in-non-model-organism/,但这里作者也表示校正效果不佳。除非你有一个很大的训练集,不然不建议。
对于人类基因组而言,一般认为VQSR比硬过滤hard-filtering要好,但如果数据集小(变异数目或者样本数目太少),都不建议。现实中很少有单位用这个吧,甚至包括Broad自己。对于动植物基因组而言,不用想,直接硬过滤吧。
动植物call变异,据我读文献观察(没有统计),GATK还是用的最多的(尤其是高水平研究),毕竟以准确性著称。虽然有FreeBayes、samtools、bcftools等软件可以用,但恳求大佬们还是多开发几个好用的、权威的、针对动植物基因组特点的工具吧。
本文看了以下帖子:
https://www.bioinfo-scrounger.com/archives/622/
https://gatk.broadinstitute.org/hc/en-us/articles/360035532412-Can-t-use-VQSR-on-non-model-organism-or-small-dataset
https://www.biostars.org/p/394000/
https://www.biostars.org/p/88436/
https://www.biostars.org/p/320360/
https://sites.google.com/a/broadinstitute.org/legacy-gatk-forum-discussions/2013-02-12-2012-10-01/1706-Best-recommendation-for-base-recalibration-on-nonhuman-data