//没更新完QAQ
文章地址:
QUBIC a bioconductor package for qualitative biclustering analysis of gene co-expression data.pdf
QUBIC2 A novel and robust biclustering algorithm for analyses and interpretation of large-scale RNA-Seq data
名词注释
- functional gene modules (FGMs) 基因功能模块
每个模块都被定义为特定基因集上的高度结构化表达模式 - transcriptional regulatory signals (TRSs) 转录调控信号
- single-cell RNA-seq scRNA-seq
QUBIC
introduction
在大型转录组数据集中,双聚类广泛用于所有条件的子集下识别共表达基因。QUBIC程序被认为是生物数据解释中最有效的双聚类方法之一。但是,它的可用性仅限于C实现和低吞吐量web接口。
该文介绍了一种QUBIC的R实现,它有两个独特的特点:
- 通过重构和优化QUBIC的源代码C代码,平均提高了82%的效率;
该算法功能包括:具有数据分析功能、数据离散化、查询双聚类、双聚类扩展、双聚类比较比较、热图可视化分析等功能
cell poputation
|(1)
mrna expression patterns
|(2)
identify co-expressed(or con-regulated) genes
在(1)中进行DNA微阵列 DNA mircroarrays,测量大量基因的表达水平
DNA mircroarrays
DNA微阵列(通常也称为基因芯片、DNA芯片或生物芯片)是附着在固体表面的微型DNA点的集合。科学家使用DNA微阵列同时测量大量基因的表达水平。
在(2)中进行聚类 biclustering,双聚类、协聚类(co-clustering)或双模式聚类是数据挖掘技术,它是允许同时对矩阵的行和列进行聚类。
多种类型的聚类
a)具有恒定值的双聚类
b)行上具有常数值的双聚类
c)列上为常数的双聚类
d)相参的双聚类(相加)
(e)相参的双聚类(相乘)
(图片来源于网络,作者:yang li)
key step
关键步骤表示使用定性矩阵的微阵列数据集
最重的未使用的边(作为种子)
→迭代招募新边通过一个接一个地找到这个矩阵中的所有双聚类
优点
1.优化了代码,提高了执行效率
优化了代码,提高了代码的可移植性
改变了原c代码成cpp代码,改变了许多数据结构,运用了cpp中stl替换了原c中的许多内容,显著提高了程序的效率
2.如果在某个步骤中忽略了双聚类
3.QUBIC可以通过使用其他边缘作为双聚类的种子来进行补救
4.QUBIC既能发现共同表达基因,也能发现共调控基因
5.QUBIC可以同时发现正相关基因和负相关基因
6.QUBIC可以找到一组特定基因(种子)的相关基因
7.QUBIC通过使用多个起点(种子)来摆脱局部最优的限制
缺点
总结
双聚类算法QUBIC有助于研究人员在其基因表达数据集中识别共表达基因子集, 可以很好的成为解释基因表达谱数据的一种方法
QUBIC2
借助QUBIC2算法可以有效的检测多零表达或者多低表达的RNA-SEQ数据或者是scRNA-SEQ数据
introduction
- scRNA-seq数据具有高维性,涉及数千个基因以及大量细胞。
- 降维和特征选择是处理高维数据的两种主要策略。
- 由于scRNA-seq的多零表达和多低表达,为了更好处理scRNA-seq数据, 提出了QUBIC算法,而本文是在QUBIC的基础上进行改进提出QUBIC2算法。
- 建立左截断式的混合高斯模型的多峰性对多零表达数据的准确评估
- 一个快速和有效的功能性基因扩张战略模块优化使用信息分离和
- 严格的统计检验的重要性确定双聚类在任何有机体,包括那些没有实质性的功能注释。在各种基准数据集上,与其他五种广泛使用的算法相比,QUBIC2在检测双聚类方面的性能有了显著提高。
- 大肠杆菌等模拟数据。QUBIC2还展示了由微阵列、批量RNA-Seq和scRNA-Seq产生的基因表达数据QUBIC2的稳健和优越的性能可用性和实现