单细胞测序 缺失值填充
技术数据校正的另一种类型是缺失值填充(也称为降噪或插补, denoising or imputation)。单细胞转录组的数据包含各种噪声。这种噪音的一个特别突出的来源是dropout。推断dropouts事件,用推断出的合适的表达值替换这些零以减少数据集中的噪声成为几种最新工具的目标 (MAGIC, DCA, scVI, SAVE, scImpute)。已证明进行缺失值填充可改善基因与基因相关性的估计。此外,这一步也可以与标准化、批次校正和其他下游分析整合,就像在scVI工具中实现的那样。尽管大多数数据校正方法都将标准化后的数据作为输入,但是某些缺失值填充方法是基于预期的负二项噪声分布,需要基于原始计数矩阵进行操作。在应用缺失值填充时,应考虑到没有一种方法是完美的。因此,任何方法都可能会对数据中的噪声进行过高校正或校正不足。确实,已有报道表明缺失值填充可能引入错误的相关信号。鉴于在实际应用中难以评估缺失值填充是否得当,用户选择是否应用这一方法也是很大的挑战。当前缺失值填充方法是否能拓展应用到大数据集还是一个问题。鉴于这些考虑,目前尚无关于应如何使用缺失值填充的共识。谨慎的方法是仅在视觉展示数据时使用缺失值填充,而非在探索性数据分析过程中基于填充的数据作出推论或假设。全面的实验验证在这里尤为重要。
陷阱和建议:
仅在进行轨迹推断和校正的生物学混杂因素不影响感兴趣的生物学过程时才校正这些因素的影响。
如果校正的话,所有因素同时校正而不是分别校正技术和非关注的生物因素变量。
基于板的数据集预处理时需要校正count数的影响,建议采用非线性标准化方法或downsampling方法进行标准化。
当批次之间的细胞类型和状态组成一致时,建议通过ComBat执行批次校正。
数据整合和批次校正应通过不同的方法进行。数据整合工具可能会过度校正简单的批次效应。
用户需要对只在缺失值填充后才能发现的信号格外注意。探索性分析时最好不进行缺失值填充操作。
https://www.embopress.org/doi/full/10.15252/msb.20188746
http://blog.sciencenet.cn/blog-118204-1220240.html