相信做过肿瘤单细胞的小伙伴对这个分析并不陌生,如果多读几篇文献,就能在CNS以及大子刊上面看到这个分析。
非负矩阵分解(Nonnegative Matrix Factorization,NMF)是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。
基本思想:给定一个非负矩阵V, NMF能够找到一个非负矩阵W和一个非负矩阵H, 使得矩阵W和H的乘积近似等于矩阵V中的值。
放在我们单细胞转录组的场景下,就是需要将一个基因×细胞
的表达矩阵(V),分解成基因×表达程序
(W),与表达程序×细胞
(H)两个矩阵的乘积。如下图:
在基因×表达程序
矩阵中,存放的是每个program中,每个基因的权重,往往根据权重最大的前20/30个基因来确定该program的功能。如果是多个样本,每一个样本均进行以上操作,整合所有样本的基因×表达程序
矩阵,还可以画相关性热图,也就是文献中经常出现的那个图。
在表达程序×细胞
矩阵中,存放的是每个细胞中,每个program的相对强弱/使用情况。
接下来的内容分为两篇,本篇推文介绍一些文章中用NMF解析肿瘤细胞异质性的例子,下一篇手把手演示一遍NMF分析及作图(将在公众号发布)。
1. 头颈鳞癌
Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer
这一篇文献发表于2017年,算是很早期的单细胞文章了,文章利用NMF得到了一个p-EMT表达程序,其可以作为淋巴结转移、分级、病理特征的独立预测因子。
上图的B就是所有program的相关性聚类热图,一般会将功能相似且相关性高的多个program当做一个meta program。A图是某一个病人,program对应的基因的表达情况。
2. 鼻咽癌
Single-cell transcriptomic analysis defines the interplay between tumor cells, virus infection, and the microenvironment in nasopharyngeal carcinoma。
这一篇文章去年发表于Cell Research,对鼻咽癌肿瘤微环境进行了解析,同时用NMF在肿瘤细胞中鉴别出一个表示“免疫原性”的表达程序,进而找出一类独特的“上皮-免疫”双重特征肿瘤细胞亚群。
上面两篇文献的主要发现和结论都是基于NMF的结果,可见NMF在解析肿瘤细胞异质性领域的作用之大。当然,NMF也能用于其他细胞类型的单细胞数据。
3. 新冠研究
Plasma from patients with bacterial sepsis or severe COVID-19 induces suppressive myeloid cell production from hematopoietic progenitors in vitro
研究者用NMF在单核细胞中鉴定出一种MS1表达程序,MS1 表达程序与细菌性败血症和 COVID-19 的疾病严重程度相关,高表达意味着疾病更严重。
因水平有限,有错误的地方,欢迎批评指正!