多组学预后预测模型文章思路

Molecular Therapy-Nucleic Acids上(影响因子7.032)。此研究对肺腺癌进行了多组学分析,并建立预后预测模型。作者的预后预测模型可能具有令人信服的临床价值,可能会改善患者总体生存率,甚至可以为LUAD患者开发新的治疗策略。

题目:Multi-Omics data analyses construct tumor microenvironment and identify the immune-related prognosis signatures in human lung adenocarcinoma.
摘要

近年来,肺癌已成为全世界最常见的癌症之一,其中肺腺癌(LUAD)是最常见的组织学类型。为了剖析LUAD的肿瘤微环境并发现更多的预后信息,作者调查了3种类型的遗传或表观遗传学特征(表达,体细胞突变和DNA甲基化)中与免疫相关的差异,并推测这些改变的潜在作用。

通过分析TCGA中多组学数据,了解免疫应答以及与免疫相关的代谢和神经系统。此外,基于lasso回归和cox回归的四步策略用于构建预后预测模型。对于独立测试集的预后预测,经过训练的模型(平均C指数= 0.839)的性能令人满意,1年,3年和5年AUC分别为0.796、0.786和0.777。最后,基于所有样本构建了整体模型,该模型包含27个变量,在1年,3年和5年的ROC分别为 0.861, 0.850, 0.916。

 

文章流程图

结果简述

1.LUAD肿瘤微环境的构建

肿瘤组织不仅简单地由肿瘤细胞组成,而且还由异质微环境成分(如成纤维细胞,血管,免疫细胞,基质细胞等)组成,这些成分可以被肿瘤细胞浸润并因此具有肿瘤相关的影响。肿瘤细胞与周围浸润物之间的相互作用尤其是2种主要的非肿瘤成分(基质细胞和免疫细胞)能够协调肿瘤的进展或抑制。

为了评估浸润的基质细胞和免疫细胞的肿瘤相关作用,使用ESTIMATE估计恶性肿瘤组织中的基质细胞和免疫细胞,基于TCGA的表达谱建立了TME。ESTIMATE生成一个可测量肿瘤相关基质存在的基质评分,以及一个代表免疫细胞浸润水平的免疫评分,并将它们结合起来,产生一个称为“estimate score”评分的指标,可全面推断肿瘤的纯度。如下图A所示,LUAD样本与正常样本相比,基质评分,免疫评分和estimate分数分布在显著较低的一侧。

为了分别阐述基质细胞和免疫细胞的作用,进一步研究了两种评分与临床因素之间的关系。从TNM分期系统的角度来看,不同肿瘤大小的免疫评分显著不同,但淋巴结转移和远处转移无差异(如下图D、E、F所示)。对于整体TNM阶段分类,如下图B所示,早期和晚期的免疫评分显著不同,其中,I期的免疫评分显著高于III,IV期的免疫评分。一个更重要的发现是,较高的免疫评分与更长的总生存时间显著相关(下图C),而基质评分与患者的预后没有显著相关性。作者推测与LUAD中的基质细胞相比,浸润肿瘤的免疫细胞具有更强的临床相关性。因此,以下分析主要集中在肿瘤免疫微环境(TIME)和免疫相关基因上。

2、剖析LUAD中浸润的免疫成分

由于免疫浸润水平和细胞组成与肿瘤进展和患者预后密切相关,因此我们使用LUAD样品的中位免疫评分将其分为高免疫组和低免疫组,并使用CIBERSORT进一步表征细胞组成以探索免疫细胞亚群与临床特征之间的关系。去除了CIBERSORT生成的P值大于0.05的样本。总共保留了468个样本,其中203个属于低免疫人群,而265个属于高免疫人群。

然后,将每个样本的免疫成分分为22种免疫细胞。高免疫群的记忆B细胞,CD8 T细胞,活化的记忆CD4 T细胞,M1巨噬细胞,静息树突状细胞,活化的肥大细胞和伽马三角洲T细胞的分数明显较高,而浆细胞,M0巨噬细胞和活化树突状细胞的分数较低。如下图G所示。

在考虑免疫评分与上述检测到的临床因素之间的关系时,作者推测不同的免疫细胞可能对患者的预后产生不同的影响,并且正如所预期的,记忆B细胞,CD8 T细胞,M0巨噬细胞,M2巨噬细胞和活化树突状细胞在TNM分期,肿瘤大小或淋巴结中有显著差异,而其他细胞亚群在所有临床因素中均无统计学意义(下图 H)。

3.    免疫浸润相关差异表达基因的识别

来自TCGA的LUAD样本的表达谱用于识别高免疫和低免疫人群之间的表达变化。认为满足log2(FC)> 1和FDR <0.05标准的基因差异表达,其中高免疫力中分别有611和164个基因上调和下调(下图A)。发现29种趋化因子(例如CXCR4和CCL8)显著上调(下图B),能够调节多种免疫细胞向肿瘤的募集。然后,使用clusterProfiler进行功能富集分析以推断基因这两部分的潜在功能。发现上调的基因在免疫相关的生物学过程(例如T细胞活化和白细胞增殖)中富集(下图C),表明它们在增强肿瘤相关免疫方面具有积极作用。下调的基因主要在代谢过程中富集(下图D)。肿瘤细胞与浸润的免疫细胞之间的代谢是能量竞争的战场,因此可以影响肿瘤的进展。因此,作者推测某些下调的基因利用代谢开关调节免疫和肿瘤细胞的活性。

4. 不同免疫浸润水平中体细胞突变的比较

使用R包maftools ,基于来自全基因组测序(WES)的数据,对包括SNV,SNP,插入(INS)和缺失(DEL)在内的体细胞突变进行了分析和可视化。如下图A所示,大多数基因组变体在高免疫和低免疫人群中均为错义突变。不论SNV的类型如何,低免疫人群的突变数均显著高于高免疫人群,如下图B所示。此外,下图C显示高免疫队列中的SNP,INS和DEL也少于低免疫队列。低免疫人群中的样本具有比高免疫人群(下图D)显著更高的变异等位基因分数(VAFs)水平,这被认为与肿瘤进展和预后较差有关。这支持在低免疫性样本中发现相对较高的肿瘤纯度和较低的异质性。

在低免疫人群中,超过10%的样本中有129个基因发生了突变,而在高免疫人群中只有62个基因符合该标准,其中有56个基因重叠。相应队列中前15个最频繁突变的基因如下图E所示。TP53,TTN和MUC16在这两个队列中均排在前3位,并且它们之间的相互作用调节着各种与肿瘤相关的生物LUAD的过程,表明它们可能较少参与免疫浸润过程,但主要参与肿瘤进展。接下来,作者使用CoMEt算法分析了前25个最频繁突变的基因的共现和排他突变。在两个队列中有三个独特的案例(KRAS-TP53,KRAS-TNR和STK11-TP53),它们表现出互斥的突变(下图J),这表明它们可能在相同的情况下具有冗余作用和它们之间的选择性优势可以保留多个拷贝的突变。更有趣的是,某些基因在两个队列之间具有不同的突变频率。根据结果,使用Fisher精确检验检测到268个差异突变基因,前10个下图F中显示。高免疫组和低免疫组之间无SNP的KRAS表达水平显著不同,但当存在SNP rs121913530(C> A)时则观察到相反的情况(下图I)。此外,STK11是另一个典型的例子,展示了两个队列之间的不同突变点(下图G)和对预后影响差异的合理的连锁反应(下图H)。

5.在LUAD中描述DNA甲基化模式

作者旨在使用TCGA Illumina Infinium 450k DNA甲基化数据检测和比较不同免疫队列中DNA甲基化模式的影响。使用不超过20%的基因缺失beta值的451个样本,通过ChAMP检测差异甲基化探针(DMP)。根据∆Beta> 0.15和FDR <0.05的标准,共识别出5764种免疫相关DMP,如下图A所示。在高免疫队列中的2386个高甲基化基因中,有63个上调的DEG和32个下调的DEG(如下图B)。但是,从低甲基化的基因中,仅检测到7个上调的DEG。基于GO分析,研究了DMPs相关基因的功能。FDR最低的前15个GO term表明它们在细胞分化和发育中的潜在作用,如下图G所示。同时,它们还显著富集了与神经元相关的各种生物过程。特别是,与DMPs相关的基因的基因集富集分析(GSEA)显示,具有高度阳性β差异的高甲基化基因对与肿瘤相关的神经生物学过程(如轴突引导和轴突发生)具有更重要的贡献,如下图D所示。另外,作者还发现,与DMPs相关基因相关的探针信号倾向于与表达水平负相关(如下图C)。此外,免疫水平不会影响甲基化水平与总体表达水平之间的相关性,这得到了两个队列之间相关系数的高一致性的支持,如下图E所示。下图F表明DNA甲基化对表达的影响存在区域差异。

6.多组学特征提供准确的预后预测

为了从众多遗传变异中识别出与免疫相关的预后特征,采用了基于lasso回归和Cox比例风险回归的四步策略。一方面,对于联合效应,所有的遗传改变都被组合在一起,其中使用DEG,5个突变,217个DMP组成的337项被识别为使用单变量Cox比例风险模型对患者的总生存时间具有显著独立的影响。采用lasso回归模型来排除贡献较小的变量。最终保留了52个变量(如下图A所示),并用于建立多元Cox比例风险回归模型。作者将TCGA样本随机分为训练和独立测试集。三分之一的样本(n = 142)轮流作为独立的测试集,另外三分之二用作训练集,从而构建了三对样本集。经过训练的模型的性能令人满意,平均一致性指数(C指数)等于0.839。接下来,根据已建立的模型计算每个样本的风险评分,这对生存状态具有很大的判别力。训练集的1年,3年和5年预后预测的平均AUC值分别达到0.871、0.875和0.928。关于测试集的预测,性能表现略有下降,其1年,3年和5年生存的平均AUC值分别为0.796、0.786和0.777。此外,根据中位风险评分将样本分为高风险组和低风险组(下图F)。Kaplan-Meier生存分析(下图G)显示,与低风险组人群相比,高风险组人群的总生存率较差。考虑到上述模型的强大鲁棒性和有效性,因此作者组合了所有TCGA样本,并生成了一个包含27个变量的整体预测模型(下图D),下图B显示了27个变量对整体模型的贡献,此外,无论是1年,3年还是5年生存率,风险评分具有较高的判别力,其AUC值均等于0.861 ,0.850和0.916。

尽管分期与总体生存时间显著相关,但与上述仅基于多因素构建的总体模型相比,合并了临床因素的新模型的辨别能力并未得到改善,如下图E所示。此外,这种新模型在其1年(AUC = 0.861),3年(AUC = 0.848)和5年(AUC = 0.914)的生存预测上没有取得更好的性能(下图C)。因此,只有包含27种改变的多组学特征才能产生准确的预后预测。

此研究提供了更广泛的LUAD视图,并建立了强大的预后预测模型。作者的预后预测
模型可能具有令人信服的临床价值,可能会改善患者总体生存率,甚至可以为LUAD患者开发新的治疗策略。

文献解读

顶级套路:三元反馈环路+磷酸化修饰

2020-8-28 21:22:44

文献解读

一种预测结肠癌预后的新表观遗传标记的鉴定和验证

2020-8-28 21:27:25

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索