DNN整合基因组谱

DNN整合基因组谱

论文地址：Predicting drug response of tumors from integrated genomic profiles by deep neural networks

利用深度神经网络预测整合基因组谱的肿瘤药物反应
作者信息：
Yu-Chiao Chiu1, Hung-I Harry Chen1,2, Tinghe Zhang2, Songyao Zhang2,3, Aparna Gorthi1, Li-Ju Wang1, Yufei Huang2,4§, Yidong Chen1,4§
1德克萨斯大学健康科学中心格里希儿童癌症研究所

2德克萨斯大学圣安东尼奥分校电气和计算机工程系

3西北工业大学自动化学院信息融合技术实验室

4德克萨斯大学健康科学中心流行病学和生物统计学系

论文信息：
在美国加利福尼亚州洛杉矶举行的智能生物学和医学国际会议（ICIBM 2018）上以及BMC Genomics增刊上发表。

研究背景：
由于肿瘤的异质性，准确预测药物反应和鉴定新型抗癌药物仍是一项具有挑战性的任务。

由于患者的药物反应数据难以获得，大规模的基于细胞系的筛查可以极大地促进癌症药物基因组学的研究。但由于体内和体外生物系统的根本差异，将从细胞中获得的药物基因组学特征转化为肿瘤药物反应的预测仍需要继续研究。

本文旨在基于基因组谱预测肿瘤对抗癌药物的反应。作者设计了一个深度神经网络(DNN)模型，利用肿瘤基因组图谱(TCGA)的大量肿瘤样本，从高维突变和表达谱中了解遗传背景。利用GDSC中的药物基因组学数据对模型进一步训练，最终再次应用于TCGA数据，预测肿瘤的药物反应。

研究方法：
数据源：

CCLE： 935个细胞系的基因表达数据E^CCLE

UCSC TumorMap ：11,078个TCGA泛癌肿瘤数据E^TCGA

作者将基因表达数据表示为log以2为底（每百万个基因的转录本数+1），对于突变数据，考虑了四种类型的非同义突变，包括错义和无义突变、移码插入和删除。有突变赋值为1，野生型赋值为0。

GDSC：990个细胞系对265种抗癌药物应答数据。

对GDSC中缺失的数据使用R包VIM和laeken，通过5种最接近的药物的IC50值加权平均值进行推算。

本研究分析了25种组织类型的622个包含有效表达、突变和IC50数据的细胞系和33种肿瘤类型的9059个包含表达谱和突变谱的肿瘤。经过数据预处理后，对CCLE和TCGA样本中的18,281个突变基因和15,363个表达基因数据进行分析。

DNN模型概述

提出的DNN模型用于根据细胞或肿瘤的基因组特征预测IC50值。

输入为样本c的突变和表达向量对。输出为一个长度为D的代表IC50值的向量。

该模型由三个网络组成：突变编码器(Menc)，表达编码器(Eenc)，预测网络(P)。

前两部分是使用TCGA数据的突变数据和表达数据（n=9059）进行预训练的自编码器，用于将突变和表达数据的高维特征学习为低维表示。将低维表示连接到P中，使用CCLE数据（n = 622，分别使用80%、10%和10%的样本作为训练、验证和测试集）对整个模型（三部分）进行训练，预测265种药物的IC50值。

DNN的设置和计算环境

本研究中的DNN训练使用Keras 1.2.2。网络各层均为全连接层。

优化器为Adam，损失函数为均方误差（MSE）。

P的输出层使用线性激活函数，其它层的激活函数设为ReLU。输出为对数尺度IC50值。

神经网络模型示意图

预训练突变和表达编码器

Autoencoder是一种无监督的DL模型，包括一对非对称的编码器和解码器。通过最小化输入数据和重构数据之间的损失减少数据的维数，并在瓶颈层捕获关键特征。

为了确定优化结构，作者采用超参数优化方法hyperas，选取：

（1）第一层神经元数量(4096、2048或1024)

（2）第二层神经元数量(512、256或128)

（3）第三层神经元数量(瓶颈层;64、32或16)

（4）批大小(128或64)。

每个组合训练了20个epochs，表现最好的模型重复运行100次。

最终模型神经元数：Menc （18281-1024-256-64） Eenc （15363-1024-256-64）

完整的预测网络

在完整模型中，两个自编码器与P相连，预测IC50值。P是一个五层前馈神经网络, 第一层合并两个编码器的输出神经元,三个全连接层和输出层。使用均匀分布对预测网络(P)进行初始化，突变编码器(Menc)和表达编码器(Eenc)通过对TCGA数据进行预训练得到的参数进行初始化。当验证集中的损失连续3个epoch停止下降时，停止训练，以避免模型过拟合。

使用测试集进行模型评估。并使用最终的模型来预测TCGA肿瘤的药物反应。IC50预测值高表明患者对相应药物有不良反应。

与其他模型的比较

将与线性回归、支持向量机和四种不同的DNN进行了性能比较。

首先，为了评估TCGA预处理对Menc和Eenc的影响，使用均匀分布对两个编码器进行随机初始化，并计算整个模型的MSE。

其次，将Menc和Eenc网络的降维问题替换为主成分分析(PCA)，将Menc和Eenc替换为突变和表达数据的前64个主成分。

最后两个模型仅包含Menc或Eenc，研究它们是否提高了性能。

在每次迭代中，CCLE样本随机分为训练组(80%)、验证组(10%)和测试组(10%) 。根据消耗的epochs数量和IC50的MSE，比较了100次迭代的性能。

对于多变量线性回归和正则化支持向量机，融合突变和基因表达的前64个主成分，预测所有(使用线性回归) 或单个药物(SVM)的IC50值。

实验结果：

（A） CCLE的真实(包含缺失值)、推算和预测的IC50值和TCGA的预测数据的密度图。原始数据的两种模式有所增强。

（B）计算和预测CCLE IC50值的热图。预测IC50的分布与原始数据相似。

（C,D）CCLE样本IC50预测值与估算值之间的Pearson和Spearman相关性。

性能比较

作者共进行了100次训练，每次都重新选择了训练、验证和测试单元。总的来说，模型在14.0个epoch内收敛(标准差为3.5), 测试样本MSE为1.96 ，训练/验证集中为1.48。

两种经典方法在测试样本的MSE值较高。本文的模型相对于随机初始化和PCA结果更优且稳定(测试样本中MSE的标准差分别为0.13、1.21和0.17)。Eenc-only的性能与本文模型相似， Menc的加入似乎带来更快的收敛速度。这与生物学先验知识相符，即基因表达与生物功能的联系更直接，信息含量比突变更丰富。

在TCGA - per-cancer研究中，基因突变与药物反应预测的关系

为了在肿瘤中寻找有效的肿瘤抗癌药物，作者将构建的模型直接应用于预测9059个TCGA样本对265种抗癌药物的反应。预测的IC50值与CCLE细胞分布相似。

因为细胞系和肿瘤有不同的性质，作者首先检查了几种具有知名靶基因的药物。雌激素受体阳性的乳腺癌对它莫西芬的反应优于雌激素受体阴性患者。阿法替尼和吉非替尼, 在EGFR突变的非小细胞肺癌中实现更好的性能。这些结果显示了模型对肿瘤的适用性，但预测的IC50水平差异的幅度不大，表明了细胞系和肿瘤之间的差异。

作者分析了所有癌症-突变-药物组合，并测试了每一种癌症有突变和没有突变的样本之间IC50的显著性差异。设定Bonferroni校正t检验P < 1.0×10-5,共确定了4453种癌症-突变-药物组合，涉及256种药和169个癌症-突变组合。前三种组合为肺腺癌（LUAD）-TP53突变(共235种药物有调节作用)、肺鳞癌（LUSC）-TP53突变(228种药物)、胃腺癌（STAD）-TP53突变(224种药物）。TP53是许多癌症中突变最频繁、研究最深入的基因之一。该突变已被证明与癌症干细胞和耐药性功能相关，从而调节耐药性。

TCGA - pan-cancer中基因突变与药物反应预测的关系

作者分析了11个在所有TCGA样品中变异率高于10%的基因。确定了2119个突变-药物对,其中1882对(88.8%) 耐药，237对(11.2%) 敏感。

对于前五种数量最多的药物反应-调节基因，TP53和TTN突变分别与最多的耐药药物和敏感药物相关。因此，作者进一步研究了2种基因药物应答与状态的关系。

野生型TP53是CX-5461和索拉非尼发挥抗癌作用的必要因素，能使癌细胞对硼替佐米敏感，并增强了苯乙双胍诱导的生长抑制和凋亡。

对于之前较少研究的TTN突变，研究结果显示TNN可能是对维诺瑞滨和epothilone等药物敏感的标记基因。

单癌和泛癌的研究结果证明了模型在预测肿瘤药物反应和寻找肿瘤中调节药物反应的新基因的能力。

TCGA中多西他赛（docetaxel）和CX-5461的药物基因组学分析

作者以两种药物为例，对药物耐药性相关突变和表达谱进行研究。

对于每一种药物，比较预测为非常敏感和耐药(IC50在最先1%和最末1%，每组n = 91)的患者。

多西他赛敏感患者的主要癌症类型为食管癌(ESCA;25.3%)、宫颈癌(CESC;13.2%)以及头颈部鳞状细胞癌(HNSC;9.9%），而耐药患者主要为肝癌(LIHC;42.9%)、LGG(26.4%)、胶质细胞瘤(GBM;12.1%)。

CX-5461最近被证明在治疗急性髓系白血病(LAML)方面优于标准化疗方案。LAML和b细胞淋巴瘤(DLBC)的患者共占45.1%，对CX-5461的应答极好。

对于Docetaxel的基因，平均每个敏感肿瘤有2.7个突变，而耐药组为0.51个。

对于CX-5461，前10个差异突变的9个基因集中在耐药组，以TP53突变为主(突变率:耐药组95.6%，敏感组13.2%) 。IDH1是敏感肿瘤中唯一优先突变的基因，且以LGG为主(44个敏感LGG中42个发生突变)。

药物基因组学分析揭示了众所周知的多西他赛的耐药机制，揭示了CX-5461对造血系统恶性肿瘤和LGG的潜在作用。

总结：
（1）本文提出了一个DNN模型，基于癌细胞或肿瘤的突变和表达谱来预测药物反应。模型提高了药物反应的预测准确度。将模型应用于肿瘤中，还发现了研究良好且新颖的耐药机制和药物靶点。

（2）由于具有高表征能力和模型的复杂性，该方法存在过拟合的问题。针对这一问题，本研究将训练数据划分为训练集和验证集，使得训练过程能够提前停止。未来的工作可能会进一步将dropout和regulalization纳入DNNs。

（3）模型可以将整合额外的基因组突变信息，例如拷贝数的改变，进一步降低MSE。

（4）随着神经网络的发展，最近提出了几种新的方法来提取神经网络学习到的特征。未来的工作可以结合这些方法，进一步揭示新的致癌基因组谱。
————————————————
版权声明：本文为CSDN博主「Programming_miao」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Programming_miao/article/details/88534421
相关阅读:
(转)动态SQL和PL/SQL的EXECUTE IMMEDIATE选项
 MyBase代码
 LinkedList、ArrayList、Vector
MyEclipse8.5的Help菜单下没有Software Updates的设置方法
 球星们
 文件内容提取到byte数组里
 List<>Array
ArcGIS9.3全套下载地址
 administrator用户不见了
 ArcEngine VS2005 C#
原文地址：https://www.cnblogs.com/wangprince2017/p/15312055.html