6-基因signature预测头颈部鳞状细胞癌患者的生存

今天和大家分享的是2020年2月发表在Aging(IF:4.831)上的一篇文章,“Six-gene signature for predicting survival in patients with head and neck squamous cell carcinoma”。HNSCC患者的预后仍然很差。作者将TCGA-HNSCC的数据随机分为训练集和测试集,在训练集中筛选基因并使用随机森林图进行特征筛选;在测试集、验证集和GEO外部验证集中建立并验证了基因相关的预后模型。

Six-gene signature for predicting survival in patients with head and neck squamous cell carcinoma

6-基因signature预测头颈部鳞状细胞癌患者的生存

一、 研究背景

        头颈部鳞状细胞癌(HNSCC)的死亡率高,主要原因是其一般在晚期得到诊断。因此,迫切需要一个标记物协助临床医生进行HNSCC的早期诊断。在本研究中,作者提出了一套系统化的流程来鉴定HNSCC相关的基因标记,可以有效预测HNSCC患者的预后风险。

二、 分析流程

三、 结果解读

1. 与患者生存相关的基因集

        作者对TCGA的训练集样本使用单因素回归分析,建立OS与基因表达之间的关系。在Table1中列出了HR最高的Top20基因。

Table1:表达与预后最相关的20个基因

2. 基因组变异的基因集

        作者对TCGA的拷贝数变异数据使用GISTIC 2.0来鉴定表现出显著扩增或缺失的基因。图1A和B可见:基因组内显著扩增的片段(A)包括EGFR、FGF、ERBB2;基因组内显著缺失的片段(B)包括CDKN2A、CDK5、PTEN。

        对TCGA突变注释数据使用Mutsig2鉴定具有明显突变的基因。在补充表2中展示了具有显著突变的302个基因。图1C展示了在前50个基因中,最重要的类型突变是同义突变,错义突变,帧插入或缺失,帧移动,无意义突变,剪切位点分布和其他非同义突变。

图1:鉴定明显扩增或者缺失的基因

3. 基因组变异基因的功能分析

        为了分析基因组变异基因的功能,作者整合了1321个扩增或缺失的基因,以及基于拷贝数变异确定的显著突变的基因。进行了GO分析和KEGG分析。图2A是KEGG富集分析的结果,表明癌症相关的通路,HPV感染,PI3K-Akt信号传导通路,人T细胞白血病病毒I感染,人巨细胞病毒感染以及许多其他相关的KEGG生物学途径对癌症的发展至关重要。图2B可见,GO术语(例如发育过程,细胞过程的正向调节,细胞分化和定位调节)主要在“生物过程”中富集。

图2:对基因组变异基因进行功能富集分析

4. 头颈癌生存相关的6-基因signature

        接下来,作者整合了基因组变异的基因和与预后相关的基因,取交集作为候选基因,得到36个基因。接着使用随机森林图进行特征选择。最终得到6个基因,通过多变量COX回归建立了6-基因signature。其中:PEX11A,NLRP2,SERPINEI,UPK2和CTTN的高表达与高风险相关,而D2HGDH的高表达与低风险相关,是保护因子。

        图3A展示了错误率与分类树数量之间的关系,选择>0.4的基因作为最终的特征基因。在Table2中展示了最终确定的6个基因。图3B展示了6个out-of-bag基因的重要性顺序。

图3A,B:头颈癌的基因组变异基因和预后相关基因的鉴定。

Table2:在训练集中的患者中,与OS显著相关的六个基因。

        图3C是KM生存分析曲线:计算每个样本的风险评分,并根据中位风险评分将样本分组(cut-off值= -0.0236503),可见高风险和低风险组的预后显著不同。3D是ROC曲线。6-基因signature的平均1年,3年和5年AUC值均为0.75。3E展示了TCGA训练集中风险评分、生存时间和生存状态,以及基因表达之间的关系。

图3C,D,E:6-基因signature在TCGA训练集中的稳健性检验

5. 验证6基因signature的稳健性

        作者首先计算了TCGA测试集中每个样本的风险评分,根据在训练集中得到的cut-off值将样本分组。图4A和4B分别是对TCGA测试集和总集的KM生存分析绘图,可见低风险组的预后明显好于高风险组。4C和D分别对应测试集和TCGA总集,可见基因评分与基因表达之间的关系与训练集的一致。

图4:6-基因signature在TCGA数据中的表现

        作者还使用了GEO数据作为外部数据集,使用该模型计算每个样本的风险评分,使用训练集的cut-off值作为划分标准。图5A是KM生存分析,低风险组的预后明显好于高风险组。5B是ROC分析,可见五年生存AUC高达0.74。5C可见基因表达与风险评分之间的关系与训练集一致。

图5:6-基因signature在GEO数据中的表现

6. 6-基因signature的临床独立性

        为了评估6-基因signature在临床的独立性,作者使用单因素和多因素COX回归分析了TCGA训练集,TCGA测试集和GSE65858数据中的HR,95%CI和P值。

        Table3:展示了TCGA和GSE65858数据集中记录的患者的临床信息,包括年龄,性别,疾病阶段,病理TNM分期和肿瘤分期以及6-基因signature。

  1. 单因素COX回归分析显示,在高危组中,病理性T3,T4,M1和N2均与生存率显著相关。

但是,相应的多因素COX回归分析发现,只有高危组,病理性T4,N2临床独立。

  1. 在TCGA测试集中,单因素COX回归分析显示,在高危组中,病理性T3和N2与生存率显著相关,但相应的多变量COX回归分析发现,没有因素具有临床独立性。

  2. 在GSE65858数据集中,单变量COX回归分析显示高危组的HR,年龄,病理学T3,N3和M1与生存率显著相关。

相应的多元COX回归分析发现,高风险组、年龄具有临床独立性。

        这些结果表明6-基因signature是独立于其他临床因素的预后指标,并且在临床应用中表现出独立的预测性能。

Table3:结合临床因素的单因素和多因素COX回归

7. GSEA分析高低风险患者的通路富集差异

        作者对TCGA样本进行GSEA通路富集分析。在补充表3中展示了检测到的20种富集通路。图6展示了高风险组富集的通路。

图6:高风险组富集的通路

小结

       在本研究中,作者构建了6-基因signature,该模型在训练集和验证集中均具有良好的AUC值,并且对其他临床特征独立。与临床特征相比,该基因分类器可以改善生存风险预测。因此,作者建议使用此分类器作为分子诊断测试来评估头颈癌患者的预后风险。

文献解读

人参皂苷Rb3通过调节AMPK/mTOR介导的自噬和抑制凋亡在体内外对顺铂所致肾毒性的保护作用

2020-8-15 8:59:24

文献解读

综述:基于遗传数据用机器学习预测精神类疾病

2020-8-16 18:49:52

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索