评估转录组从头组装准确度的新方法
RNA-Seq技术,能够进行大规模的转录组分析,从而彻底改变了基因组未测序物种的研究。为了研究这些转录组,首先我们要通过从头转录组组装确定一组转录本序列,利用RNA-Seq读取数据重建转录本序列,无需基因组序列信息的帮助。目前,一些可用的从头转录组组装软件,许多是为Illumina平台数据设计,而其他一些则针对Roche 454 Life Science平台数据。这些组装软件,与它们相当大的用户可调参数集相结合,可为一个单一数据集生成大空间的候选组装件。然而,如何在这一空间中选出最准确的组装——特别是当真实值(ground truth)是未知时,仍然是具有挑战性的。
最近的许多研究已经致力于评估转录组的从头组装。在这些研究中使用的组装评估方法可被分为两大类:基于参考序列和无参考序列。基于参考序列的评估方法,使用先前已知的序列进行计算。例如,在组装元件和参考转录本序列之间建立一种对应关系之后,我们就可以计算出与参考转录本精确匹配的一部分组装元件,和组装元件相匹配的一部分参考转录本,或者这两者的组合(例如F1测度)。除了转录组,基因组和蛋白质序列也被用作组装评估的参考序列。
然而,在大多数从头组装的情况下,参考序列是不可用的或不完整的,或者相当偏离目的样本的真实性,这使得组装评估任务更加的困难。在这种情况下,必须借助于无参考序列评估测度。常用的无参考序列评估测度包括,中值重叠群长度、重叠群数量和N50。不幸的是,这些测度都很简单,往往会产生误导性。例如,N50,最流行的一种无参考序列评估测度,可以通过小组件而最大化。
这种测度的动机是,更好的组装应该来自于较大的输入读取之间重叠数,因此将有更多的读取被组装为更长的重叠群。然而,我们很容易看出,通过将所有输入读长连接成一个单一重叠群而构建的一种小组装,将取这种测度的最大值。总之,N50测量的是重叠群的连续性,而不是它们的准确性。其他过分简单的无参考序列测度,对于组装的精确度可能同样有误导性,但是有研究证明,当组装包括“singletons”(即来自单个读取的重叠群)时,一些测度可能提供一定的信息。
最近在《Genome Biology》发表的一项研究中,来自加州大学伯克利分校、威斯康星大学、印第安大州立大学等处的研究人员,通过提出DETONATE(DE novo TranscriptOme rNa-seq Assembly with or without the Truth Evaluation)方法和软件包,改进了最先进的转录组组装评估测度。DETONATE由两部分组成:RSEM-EVAL和REF-EVAL。RSEM-EVAL,DETONATE的主要组件,是一种基于新型概率模型的无参考序列评估方法,只依赖于一个组件和用来构建它的RNA-Seq读长。
RSEM-EVAL与最近的方法相似,使用统计模型来评估或构建基因组和宏基因组组装,但是,正如本文将要讨论的,由于转录本和可变剪接的不同丰度,它必然更加复杂。不同于简单的无参考序列测度(如N50),RSEM-EVAL可结合多种因素。这个值可以用来选择一个最佳的组装软件,优化一个组装软件的参数,引导新的组装软件设计为一个目标函数。此外,对于组装中的每个重叠群,RSEM-EVAL提供一个值,可评估该重叠群如何由RNASeq数据支持,并可以用来过滤不必要的重叠群。
REF-EVAL——DETONATE的第二组件,是基于参考序列测度的一种工具。与现有参考序列为基础的测度相比,它为组装精确性提供了一种更为精细的视图。
研究人员已经对真实和模拟数据进行了大量实验,来证明RSEM-EVAL值的价值。首先,他们围绕着一个单 一“真正”组装,产生了一系列扰动组件,并且表明,RSEM-EVAL在最高得分的组装中最接近于真实值。第二,他们对多个数据集超过200个组装计算了RSEM-EVAL值和REF-EVAL基于参考序列测度,他们发现,RSEM-EVAL值一般与基于参考的测度有很好的相关性。这两个最初实验的结果表明,RSEM-EVAL评分可准确地评估从头转录组组装,尽管不知道真实值。第三,与几种可供选择的无参考和比较参考为基础的测度相比,这项研究展示了RSEM-EVAL在准确性、适用性和运行要求方面的优势。
最后,作为使用RSEM-EVAL值的一个演示,研究人员根据这一指南,组装了再生蝾螈肢体的转录组。与先前研究中组装方法所发现的基因相比,这次新进行的组装,让研究人员发现了参与蝾螈肢体再生过程的更多基因。
转自生物通。