文献解读:多组学预后预测模型生信分析思路

今天和大家分享的是20年2月发表在Chest (IF:8.308)杂志上的一篇文章,“Independent validation of early-stage NSCLC prognostic scores incorporating epigenetic and transcriptional biomarkers with gene-gene interactions and main effects”,作者使用来自多个研究中心的表观基因组和转录组数据对泛癌相关基因进行了综合分析,筛选出2个具有main effect的基因和26对基因-基因(G×G)相互作用的预后生物标志物,并结合选择的表观遗传和转录生物标记建立了早期NSCLC的预后预测模型。

Independent validation of early-stage NSCLC prognostic scores incorporating epigenetic and transcriptional biomarkers with gene-gene interactions and main effects
结合表观遗传和转录生物标志物的基因-基因相互作用和主要作用的早期非小细胞肺癌预后评分的独立验证

一、 研究背景

DNA甲基化是一种可遗传,可逆的表观遗传修饰,可影响DNA的空间构象并调节基因表达,它和基因的表达差异均可作为非小细胞肺癌(NSCLC)的生物标志物。除了生物标志物的主要作用main effect外,肿瘤进展还受到基因-基因(G×G)相互作用的影响。而多组学数据的大规模综合分析可以确定具有主要作用和基因-基因相互作用的基因,在此基础上可以构建更准确的NSCLC预后模型。

 

二、 分析流程

三、 结果解读

1.DNA甲基化数据和基因表达数据的获取与质量控制

作者对五个国际研究中心(哈佛,西班牙,挪威,瑞典和TCGA)的DNA甲基化数据和四个GEO数据集和TCGA的基因表达数据进行研究,样本均为早期(I或II期)肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)样本。处理甲基化数据时,剔除了detection p-value大于0.05、变异系数小于5%、SNP相关、性染色体上、发生交叉反应的探针。由于使用的Illumina beadarrays是由两套探针使用不同的杂交方法测定的,所以作者进一步处理了甲基化信号,用R包minfi进行归一化,lumi包进行I型和II型探针校正,sva包的ComBat函数处理批次效应。完成一系列数据预处理后,分析中包括了1,230名患者(N发现队列=613,N验证队列=617),其中有12,806个CpG探针。

处理转录数据时,同样进行了质量控制,ComBat处理批次效应,并对表达值进行log2转化和标准化,鉴定出满足要求的719个基因探针。接下来作者利用12,806个CpG探针和719个泛癌相关基因的表达数据作为训练队列,具有两种组学数据的TCGA作为验证队列。

 

补充图1.研究设计和统计分析流程图
 

 

2.表观遗传和转录分析鉴定NSCLC预后生物标志

对于Main effect的分析,作者使用R包SIS进行了SIS和LASSO Cox回归来筛选与生存相关的生物标志物。SIS(Sure Independence Screening)选择了与生存的边际关联最强的标志物,而LASSO进一步筛选了变量。由于预测生物标志物之间可能存在相关性,第一次进行SIS-LASSO筛选时,可能会遗漏重要的标志物,所以进行了迭代SIS(ISIS)-LASSO,反复将SIS-LASSO算法应用于其余未选择的标志物,直到无法纳入新的生物标记为止。考虑到LUAD和LUSC之间的生物学异质性,作者使用了组织学分层的多元Cox比例风险模型,在模型中也调整了其他协变量,如年龄,性别,研究中心,临床阶段和吸烟状况。经ISIS-LASSO筛选得到了与预后相关的23个CpG probe(补充表4)和13个gene probe(补充表7)。

 

补充表4.ISIS LASSO筛选出的23个CpG探针的组织分层Cox比例风险模型的结果
 

 

补充表7.ISIS LASSO筛选出的13个基因探针的组织分层Cox比例风险模型的结果
 

对于G×G相互作用的分析,也构建了协变量调整的组织学分层多元Cox比例风险模型,鉴定了具有G×G相互作用的生物标志物。表观遗传和转录生物标志物的G×G相互作用分析的显著性水平已通过Bonferroni方法分别校正为6.10×10–10 = 0.05 /(12,806×12,805 / 2)和1.94×10–7 = 0.05 /(719×718 / 2)。经ISIS-LASSO筛选分别在表观遗传分析和转录分析中得到了与预后相关的2495对和40对G×G相互作用。

接着作者在TCGA验证队列中用一致性检验验证了筛选得到的生物标志物,还进行了比例风险假定的测试(即假定Hazard Ratio不随时间变化)。然后作者进一步进行敏感性分析(Sensitivity analysis)来评估关键生物标志物的预测结果是否稳健。对于Main effect,筛选得到了1个CpG probe(cg19286631 TRIM27)与预后显著相关(HR发现队列= 1.03,P = 1.43×10–2;HR验证队列 = 1.03,P = 1.13×10–3)(补充表4中已标灰);1个gene probe(NDRG1)与预后显著相关(HR发现队列 = 1.41,P = 2.16×10–2;HR验证队列 = 1.12 ,P = 4.33×10–2)(补充表7中已标灰)。对于G×G相互作用,筛选得到了149对(补充表9)和2对 G×G相互作用(补充表12)。

 

补充表9.表观遗传分析中149个显著GxG交互项的组织分层Cox比例风险模型的结果(部分结果)
 

 

补充表12.表观遗传分析中2个显著GxG交互项的组织分层Cox比例风险模型的结果
 

筛选到关键的生物标志物后,作者使用了向前逐步回归法,基于Pentry<.05,Pelimination>.05 来建立多生物标志物Cox比例风险模型,然后在TCGA样本中对其进行了验证。根据DNA甲基化和基因表达的各个值的加权线性组合,计算表观遗传分数和转录分数。对于表观遗传分析,在多生物标志物模型中筛选得到了1个具有Main effect的CpG探针和25对具有G×G相互作用的CpG探针(补充表9中已标灰),再加上作者之前研究的10个CpG探针一起构建了表观遗传分数。对于转录分析,在多生物标志物模型中筛选得到了1个具有Main effect的基因探针和1对具有G×G相互作用(RHOA*TLX1)的基因探针,并构建了转录分数。再由这两个分数得到综合得分,最后将预后评分定义为临床信息和综合评分的线性组合。

 

补充表15.评分与早期NSCLC生存率之间的关系
 

 

3.建立与评估多生物标志物Cox比例风险模型

为了评估这些评分的区分能力,作者分别根据表观遗传评分,转录评分,综合评分和预后评分的三分位数,将样本分为低,中和高得分组,绘制了经协变量调整的Kaplan-Meier生存曲线。与表观遗传的低分组相比,中得分和高得分组分别具有4.39(P = 1.22×10–6)和21.24倍(P = 5.67×10–21)的HR(图2.A)。转录得分,综合得分,预后评分高的患者生存率均显著降低(图2.B-D)。

作者进一步通过根据五分位数对患者进行分类,说明了预后得分的区分能力。高分组的患者3年和5年生存率较低,中位生存时间较短(图2.E-F)。在由协变量分层的分析中,进一步证实了预后评分的表现。(图3)

 

图2. 通过各种基于生物标志物的得分对患者的估计生存曲线
 

 

图3. 预后评分分层分析结果
 

然后作者在独立的TCGA队列中使用ROC曲线来预测模型的准确性,ROC曲线下面积(AUC)通过R包SurvivalROC计算得出。仅具有临床信息的模型的预测能力非常有限(AUC 3年 = 0.65,AUC 5年 = 0.66)。但是通过添加具有Main effect或G×G相互作用的生物标志物,增加了35.38%的3年生存率(P = 5.10×10 –17)和34.85%的5年生存率(P = 2.52×10 –18),并且对NSCLC生存期具有较高的预测能力(AUC 3年 = 0.88;AUC 5年 = 0.89)。(图4)此外,G×G相互作用对3年生存率的预测准确性贡献了额外的65.2%,对5年生存率增加了91.3%。最后作者使用R包rms生成了nomogram图(补充图5),校准图还显示了观察到的和预测的存活时间之间的良好一致性(补充图6)。

 

图4. 使用临床信息(C),DNA甲基化的主要和相互作用效应(M)和基因表达(E)的各种预测模型的ROC曲线
 

 

补充图5. 构建的Nomogram与临床和评分的生物标记的总体生存

 

补充图6. Nomogram模型校准曲线
 

在敏感性分析中,作者使用两个不同的阈值重新进行了逐步回归(P = .10和.15),发现大多数选定的生物标志物与原始回归模型中相同。然后,作者重新计算了表观遗传评分,转录评分,综合评分和预后评分,重新验证了它们与NSCLC生存率的关系,并获得了相似的结果。

此外,作者发现在LUAD患者和LUSC患者之间,这四个评分的影响没有显著差异(P 表观遗传评分 = .6572;P转录评分 = .1823;P 综合评分 = .5532;P 预后评分 =.9653)。预后模型在LUAD(AUC 3年 = 0.91,AUC 5年 = 0.89,C -index = 0.82)和LUSC(AUC 3年 = 0.85,AUC 5年 = 0.87,C -index= 0.82)中保持了相似的预测能力,表明所选生物标记物及其相互作用在预测LUAD患者和LUSC患者结局方面具有通用性。

 

4.蛋白质水平上鉴定基因的潜在功能

前面已经在表观遗传分析中筛选出25对G×G相互作用和1个main effect的生物标志物,在转录分析中筛选出1对G×G相互作用和1个main effect的生物标志物,因为有个别基因重复,所以一共涉及到52个基因。在临床蛋白质组学肿瘤分析协会(CPTAC)数据库中定位的47个基因中大多数(77%)基因在肿瘤和正常组织之间具有显著差异表达(limma包进行差异分析)。另外,具有main effect的1个基因和具有G×G相互作用的4对基因对LUAD存活有显著影响(补充表20)。

 

补充表20. CPTAC蛋白数据库中47个基因的main effect和基因间GxG互作的生存分析
 

 

5.表观遗传分析中基因网络分析与富集分析

在表观遗传分析中发现的49个基因中,作者通过GeneMANIA(Cytoscape插件)进行基因网络分析,5个基因(FOXP1,AFF3,BCL6,MAPK1,和STAT3)被确定为hub gene(图5.A),且据报道大多数hub gene与NSCLC相关。使用Metascape进行了GO和KEGG途径富集分析发现这49个基因富含癌症相关的途径(图5.B),值得注意的是,已鉴定的基因也富集在KEGG非小细胞肺癌途径(hsa05223)中,这表明作者鉴定的预后生物标记物的可靠性。

 

图5.25对相互作用的CpG探针和1个main effect的CpG探针绘制了49个基因的基因网络和基因富集分析
 

小结

 

本篇文章不局限于单一组学数据测试预后生物标志物上,结合了表观和转录数据,并考虑到基因与基因相互作用和基因的主要作用,经过ISIS-LASSO,多元COX回归,TCGA数据库的验证(一致性检验和敏感性分析)等多重筛选建立了基因组学的预后评分,提高了预后价值。这篇文章的筛选非常严谨,在基因基因交互作用的差异比较时,作者也注意到了多重比较的问题,使用了Bonferroni方法对P值进行校正。验证的过程中,作者不仅使用不同的基因数据库,还使用蛋白数据库进行验证,这种严谨的思想值得读者学习。当然这篇论文也存在一定的局限性,筛选出来的基因太多了(52个),给临床应用带来一定的困难。

文献解读

文献解读:确定HCC的预后基因 建立并验证了一种新的预后标志

2020-10-4 22:05:44

文献解读

基于网络药理学和分子对接技术探讨柴银颗粒抗冠状病毒感染潜在分子机制

2020-10-5 22:25:00

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索