评估转录组从头组装准确度的新方法

评估转录组从头组装准确度的新方法

评估转录组从头组装准确度的新方法

已有 2292 次阅读 2014-12-30 11:47 |个人分类:转录组测序|系统分类:科研笔记|关键词:转录组denovo测序,转录组denovo组装,装录组denovo组装结果评估新方法| 转录组denovo测序, 转录组denovo组装 |文章来源:转载

RNA-Seq技术，能够进行大规模的转录组分析，从而彻底改变了基因组未测序物种的研究。为了研究这些转录组，首先我们要通过从头转录组组装确定一组转录本序列，利用RNA-Seq读取数据重建转录本序列，无需基因组序列信息的帮助。目前，一些可用的从头转录组组装软件，许多是为Illumina平台数据设计，而其他一些则针对Roche 454 Life Science平台数据。这些组装软件，与它们相当大的用户可调参数集相结合，可为一个单一数据集生成大空间的候选组装件。然而，如何在这一空间中选出最准确的组装——特别是当真实值（ground truth）是未知时，仍然是具有挑战性的。

最近的许多研究已经致力于评估转录组的从头组装。在这些研究中使用的组装评估方法可被分为两大类：基于参考序列和无参考序列。基于参考序列的评估方法，使用先前已知的序列进行计算。例如，在组装元件和参考转录本序列之间建立一种对应关系之后，我们就可以计算出与参考转录本精确匹配的一部分组装元件，和组装元件相匹配的一部分参考转录本，或者这两者的组合（例如F1测度）。除了转录组，基因组和蛋白质序列也被用作组装评估的参考序列。

然而，在大多数从头组装的情况下，参考序列是不可用的或不完整的，或者相当偏离目的样本的真实性，这使得组装评估任务更加的困难。在这种情况下，必须借助于无参考序列评估测度。常用的无参考序列评估测度包括，中值重叠群长度、重叠群数量和N50。不幸的是，这些测度都很简单，往往会产生误导性。例如，N50，最流行的一种无参考序列评估测度，可以通过小组件而最大化。

这种测度的动机是，更好的组装应该来自于较大的输入读取之间重叠数，因此将有更多的读取被组装为更长的重叠群。然而，我们很容易看出，通过将所有输入读长连接成一个单一重叠群而构建的一种小组装，将取这种测度的最大值。总之，N50测量的是重叠群的连续性，而不是它们的准确性。其他过分简单的无参考序列测度，对于组装的精确度可能同样有误导性，但是有研究证明，当组装包括“singletons”（即来自单个读取的重叠群）时，一些测度可能提供一定的信息。

最近在《Genome Biology》发表的一项研究中，来自加州大学伯克利分校、威斯康星大学、印第安大州立大学等处的研究人员，通过提出DETONATE（DE novo TranscriptOme rNa-seq Assembly with or without the Truth Evaluation）方法和软件包，改进了最先进的转录组组装评估测度。DETONATE由两部分组成：RSEM-EVAL和REF-EVAL。RSEM-EVAL，DETONATE的主要组件，是一种基于新型概率模型的无参考序列评估方法，只依赖于一个组件和用来构建它的RNA-Seq读长。

RSEM-EVAL与最近的方法相似，使用统计模型来评估或构建基因组和宏基因组组装，但是，正如本文将要讨论的，由于转录本和可变剪接的不同丰度，它必然更加复杂。不同于简单的无参考序列测度（如N50），RSEM-EVAL可结合多种因素。这个值可以用来选择一个最佳的组装软件，优化一个组装软件的参数，引导新的组装软件设计为一个目标函数。此外，对于组装中的每个重叠群，RSEM-EVAL提供一个值，可评估该重叠群如何由RNASeq数据支持，并可以用来过滤不必要的重叠群。

REF-EVAL——DETONATE的第二组件，是基于参考序列测度的一种工具。与现有参考序列为基础的测度相比，它为组装精确性提供了一种更为精细的视图。

研究人员已经对真实和模拟数据进行了大量实验，来证明RSEM-EVAL值的价值。首先，他们围绕着一个单一“真正”组装，产生了一系列扰动组件，并且表明，RSEM-EVAL在最高得分的组装中最接近于真实值。第二，他们对多个数据集超过200个组装计算了RSEM-EVAL值和REF-EVAL基于参考序列测度，他们发现，RSEM-EVAL值一般与基于参考的测度有很好的相关性。这两个最初实验的结果表明，RSEM-EVAL评分可准确地评估从头转录组组装，尽管不知道真实值。第三，与几种可供选择的无参考和比较参考为基础的测度相比，这项研究展示了RSEM-EVAL在准确性、适用性和运行要求方面的优势。

最后，作为使用RSEM-EVAL值的一个演示，研究人员根据这一指南，组装了再生蝾螈肢体的转录组。与先前研究中组装方法所发现的基因相比，这次新进行的组装，让研究人员发现了参与蝾螈肢体再生过程的更多基因。

转自生物通。
相关阅读:
尚硅谷韩顺平Linux教程学习笔记
 第15章自动编码器
 问题总结
 日常问题记录
 SQLServer日常bug记录
 .NetCore使用NLog写入数据库总结
 C#操作XML文档
 C#中的 ?/?:/?? 三者的区别及用法
 git 命令从入门到放弃
 通过反射技术获得类中的所有属性
原文地址：https://www.cnblogs.com/wangprince2017/p/9885529.html