摘要
单细胞转录组测序(single-cell RNA-seq, scRNA-seq)数据有高噪音和稀疏的特点。原文作者展示了跨数据集的迁移学习可显著提高数据的质量。通过将深度自动编码器与贝叶斯模型相结合,原文开发的SAVER-X软件可从不同实验室、不同条件和不同物种的数据中提取可迁移的基因关系,以对新的目标数据集进行降噪。
<更多精彩,可关注微信公众号:AIPuFuBio和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>
前言
在scRNA-seq的研究中,技术噪音让细胞状态之间的精确识别模糊化,而且低表达基因不能被准确量化。当测序深度较低或感兴趣的细胞类型较少时,现有的降噪方法往往表现不佳;而且这些方法也忽略了公共的数据集,这些公共数据集可能包含有助于降噪的相关信息。现在逐渐建立了小鼠的细胞图谱,很快就会有人体每个器官的详细图谱。可公开利用的scRNA-seq数据集包含与新产生数据相关的细胞类型和基因特征信息。然而,目前还不清楚如何跨平台、跨物种、跨组织地借用信息。此外,这种迁移学习方法不能引入bias或迫使新数据失去其独特的特征。
结果
原文作者开发了一种新的降噪方SAVER-X,该方法通过表达复原利用外部数据进行单细胞分析;它将贝叶斯分层模型与一个可预处理的深度自动编码器相结合。尽管神经网络已经成为了其他单细胞方法的基础,但现有的工具只对周围的数据起作用。此外,本文中广泛的基准测试和数据强调,除了SAVER-X软件的前身SAVER之外,大多数方法对真实基因表达都产生有偏估计,并引入了特殊的基因相关性。SAVER-X是建立在SAVER软件的核心模型基础上,结合自动编码器后端和两阶段训练机制来利用公共数据资源。
SAVER-X将Y的变异分解为:(i)一个可预测的结构化成分(λ),解释基因间的共享变异;(ii)不可预测的细胞水平波动,这些波动在具有基因特异性分散的基因之间是独立的;和(iii)技术噪音。SAVER-X估计未观察到的真实基因表达,即λ加上独立的细胞水平波动。λ是通过自动编码器(图1b)获得的,该编码器的权重首先在来自相同组织或相似类型组织的细胞上进行预处理,从公共存储库中提取(“预处理数据”;图1a)。权重随后被更新以适应目标数据。这种两阶段训练方案允许适应性保留可迁移特征。人类和小鼠共享许多核心的细胞类型和必要的生物学通路。
为了可以跨物种学习,SAVER-X中的自动编码器包含了人和小鼠之间的共同网络。此外,SAVER-X采用基于交叉验证的基因过滤和贝叶斯收缩来保留目标数据集特有的表达模式(图1b)。交叉验证识别出与自动编码器不匹配的基因,自动编码器的预测被它们的目标数据均值所取代。贝叶斯收缩方法通过计算加权预测值的平均值和观察到的数值来得到最终的降噪值。
原文作者首先探索了SAVER-X在免疫系统不同细胞类型上进行迁移学习的好处和局限性。在没有流动分类的情况下,scRNA-seq数据中的组织浸润免疫细胞很少,因此,如果没有外部数据的帮助,降噪很有挑战性。软件作者检测了SAVER-X是否对来自人类细胞图谱(HCA)项目(来自脐带血和骨髓的500,000个免疫细胞)和10X基因组学(200,000个外周血单核细胞)的数据进行了预处理,从而有意义地提高了来自健康和疾病组织的免疫细胞的数据质量。与此同时,软件作者把SAVER-X和现有的降噪方法进行了对比,降噪方法是针对来自九种非重叠免疫细胞类型的一组纯化细胞进行的。
对T细胞亚型的可靠鉴定,对组织免疫环境的定性至关重要,然而,在原始的单细胞转录组测序数据中,T细胞亚型常常被混在一起(图2a)。原文作者通过对每种细胞类型随机选择100个细胞创建了一个测试数据集,发现SAVER-X不仅显著提高了肝癌T细胞亚型之间的分离,而且与其他降噪方法相比,还提高了细胞类型识别的准确性(通过矫正后的兰德指数(ARI)来测量)。包含相似细胞类型的数据集显示了迁移方法的有效性,通过降低目标数据中细胞数量或测序深度,原文作者也观察到了更加明显的效果。在极端情况下,即使是覆盖范围仅为60个唯一分子标识符(UMIs)的细胞(通常被丢弃在当前管道中),也可以通过迁移学习来拯救,以揭示有用的信息。
为了理解迁移学习的局限性,原文作者评估了降噪精度,与预处理数据集和目标数据集之间细胞类型的相似性关系。迁移学习是否能有效地降噪预处理数据中不存在的细胞状态呢?考虑上面分析的纯化T细胞。当对所有的T细胞亚型进行SAVER-X预处理时,标记基因的聚类和表达量化得到了显著改善(图2b)。然而,即使细胞类型(CD4+调节性T (Treg)细胞)完全在预处理中缺失,SAVER-X也改善了这种“新”细胞类型的鉴定和标记基因定量。而且,为了确定预处理数据中细胞类型的富集是否提高了目标数据中的降噪精度,原文作者对富集了Treg细胞的T细胞进行了SAVER-X预处理,发现会产生任何明显的差异。因此,SAVER-X不需要预处理数据和目标数据之间的细胞类型完美匹配,重要的是,可以提高预处理数据中不存在的新细胞类型的量化。
作为辅助手段,原文作者还使用CITE-seq技术检测关键免疫标记的基因蛋白相关性。在CITE-seq中发现蛋白质丰度和它们的同源基因RNA表达之间的相关性非常低。而且还发现,对于PBMC和脐带血单个核细胞(CBMC)的CITE-seq数据,SAVER-X的降噪表达估计(在HCA和PBMC 10X基因组学上进行了预处理)与它们的蛋白质产物有明显更高的相关性。与其他方法相比,当目标数据集包含100和1000个细胞时,SAVER-X都提高了所有标记的相关性(图2c)。然而,对于具有8,000个细胞的较大数据集,预处理并没有显示出明显的效果。
接下来,原文作者探讨了SAVER-X是否能有效地从健康的免疫细胞中去学习降噪。与非预处理模型相比,对来自健康组织的免疫细胞(HCA和PBMC 10X基因组学)的预处理,使能够更好地表征多受试者中肿瘤浸润免疫细胞的类型(图2d)。同时,迁移学习后,肿瘤相关免疫细胞亚群仍可识别。特别地,SAVER-X保留了升高的免疫球蛋白,这是该疾病特异细胞状态下的标志(图2e)。该细胞群在健康组织中不存在,通过LYZ等标记物进一步验证了该免疫类型的存在。配对肿瘤和正常组织之间的细胞亚型特异基因表达差异,也在所有具有配对组织的受试者中,和对于免疫监测至关重要的两种细胞类型中得以保留(图2f)。
最后,原文作者使用了来自小鼠和人类发育腹侧中脑细胞scRNA-seq数据,进行跨物种迁移学习。对人类数据集中10%的读段(reads)进行降采样,将其降低到每个细胞有中值为452 UMIs,并利用原始数据作为衡量降噪精度的参考。将人类细胞随机分成两组,对一组的reads进行下采样(down-sampled),并保留另一组进行预处理。与未预处理的相比,在匹配的小鼠脑细胞上的SAVER-X预处理,导致人类脑细胞分类的有了显著地改善(图3a)。与单独对人类细胞进行预处理相比,对人和小鼠细胞预处理进一步提高了降噪精度。此外,对腹侧中脑以外区域的细胞进行SAVER-X预处理是有益的,而且对三个人类非UMI数据集以及小鼠细胞进行预处理也是有益的。这些实验证明了跨物种迁移学习在一般和实际环境中的优点,尽管在这些环境中,解剖区域和实验方案可能在预处理数据和目标数据之间有所不同。
然后,原文作者仔细检查了一个对小鼠数据进行预处理的模型,判断是否会对人类特异表达基因的估计产生偏差。他们计算了人类和小鼠之间,细胞类型特异平均表达的对数倍数变化,并鉴定了两个物种之间四种细胞类型的差异表达基因。用处理小鼠细胞的SAVER-X对下采样的人类数据进行降噪,结果保留了对数的倍数变化(图3b)。相反,仅仅依靠自动编码器,而没有交叉验证和收缩,则减少了一些基因的倍数变化。与其他方法不同,SAVER-X还保留了细胞间基因的差异(图3c)。
综上所述,结果表明SAVER-X的框架可以利用现有数据,来提高新scRNA-seq数据集的质量。SAVER-X的核心是在一系列研究设计中训练一个深层神经网络,并将该模型应用于新数据,以加强共享的生物模式。迁移学习将scRNA-seq数据分析的方法,从特定研究的统计建模过程转变为跨研究数据集成和信息共享的自动化过程。
<更多精彩,可关注微信公众号:AIPuFuBio和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>