高分多组学纯生信分析文章解读

如今,单组学的门槛越来越低,更多的研究者都争相涌入研究领域。那如何在这个情况下脱颖而出呢?

多组学文章,就能简单粗暴的把之前学过的单组学联合起来分析,成为一篇新的文章,难道不香吗?

今天,小编就为大家介绍一篇2020年6月份Molecular Oncology[IF:6.574]的多组学纯生信文章,希望能成为大家入门多组学的第一步!

原文呈现:

https://febs.onlinelibrary.wiley.com/doi/full/10.1002/1878-0261.12755

文章背景

吸烟是癌症发生的危险因素,会增加各种癌症的发病率,包括膀胱癌、头颈部癌、肺癌和胰腺癌。但现如今,很少有文章研究癌症患者确诊时的吸烟状况(包括曾经吸烟者)与总存活率之间的关系。

因此,本文通过从癌症基因组图谱(TCGA)数据库中获得癌症患者吸烟者队列中基因表达谱及临床信息。通过多变量调整的Cox回归分析,计算危险比(HR)来评估癌症诊断时的吸烟行为与总生存率的关系。

 

1
研究对象
本文从TCGA中下载有关BLCA,CESC,ESCA,HNSC,LUAD,LUSC,PAAD的临床信息,以及对应的RNAseq表达谱 (HTSeq-FPKM),miRNA 表达谱, 体细胞突变数据(SNV, VarScan2 Variant Aggregation, and Masking), 拷贝数变异数据 (CNV, Masked Copy Number Segment hg38)和DNA甲基化数据(DNA methylation data)(表1)。

 表1 研究对象

 

2
戒烟与总生存期相关性分析
首先将吸烟状态分为两种:现吸烟者(每日或偶尔吸烟);戒烟者(调查时已戒烟但过去至少已吸烟100支)(下面所有分析都基于这两个分组)

通过多因素COX回归分析求取戒烟与总生存期的关系。结果显示在LUSC中,戒烟者预后比吸烟者更好(P值<0.05,HR=0.67),暗示戒烟可能是LUSC的独立保护因素(表2)。

因此,下面可以进一步探索戒烟改善LUSC预后的潜在分子机制。

 表2 吸烟状态与总生存率的关系

 

3
差异表达基因分析
根据吸烟状态分为两组,使用‘limma’包求取差异mRNAs,lncRNAs,miRNAs。随后进行GO及KEGG富集分析。

结果显示:得出2899个DEGs,1326个DElncRNAs,48个DEmiRNAs(图3 A-C);且DEGs主要富集在与DNA,RNA相关的通路途径及DNA复制,RNA剪接等功能中。

 图3 A-C mRNA,miRNA,lncRNA差异分析火山图

D mRNA-miRNA-lncRNA共表达网络

4
 体细胞突变差异分析
尽管总突变负荷无显著差异,71个体细胞突变基因的突变频率在两组间存在差异。
且其中包括10个DEGs,进一步评估DEGs表达量是否受体细胞突变影响,结果显示GPATCH8(P = 0.037)和ZFC3H1(P = 0.034)的表达量与体细胞突变显着相关(图4 A-B)。

 

5
 拷贝数变异差异分析
781个基因中具有不同的拷贝数变异,且拷贝数增减主要在19、1和17号染色体上(图4 C)。
且其中包括94个DEGs,进一步评估DEGs的转录受否受拷贝数变异的影响,结果显示73个DEGs的表达量与其拷贝数变异相关。

 

6
DNA甲基化差异分析
94个甲基化位点具有差异,并且其中包括77个DEGs。

进一步评估甲基化水平与DEGs表达量的关系,结果显示10个DEGs表达量(如HOXB2,PTHLH)与甲基化水平具有相关性。

综上,受不同遗传与表观调控的影响,85个DEGs能作为吸烟者的驱动基因。

图4 A top20存在突变的差异基因;B GPATCH8和ZFC3H1的表达量与体细胞突变的相关性;C 拷贝数增减主要在19、1和17号染色体上;D 两组间DNA甲基化程度对比;E HOXB2和PTHLH的表达与甲基化水平显著相关

 

7
ceRNA 调控网格构建
通过lncRNA-miRNA,miRNA-mRNA的配对关系,建立lncRNA-miRNA-DEGs网络(69 lncRNAs, 5 miRNAs, and 13 DEGs)(图3 D)。
8
 LUSC中免疫细胞类型评估
三个不同算法:TIMER,CIBERSORT,XCELL
结果显示:LUSC中戒烟者免疫细胞类型与吸烟者有差异,包括CD8+ T细胞(TIMER),滤泡辅助性T细胞(CIBERSORT),γδT细胞(CIBERSORT),M0巨噬细胞(CIBERSORT),中央记忆型CD4+ T细胞(XCELL),中央记忆型CD8+ T细胞(XCELL)。

 

9
smoking signature的构建及验证
通过Cox回归分析和LASSO分析得到smoking signature = 0.5410*(smoking status)+0.3278*ZFC3H1|snv+0.2153*GPATCH8|snv + 0.3625*NOL8|cnv +        -0.5947*RPL10A|cnv + – 0.3870 *follicular helper Tcell + 0.5414*M0  macrophage+ -0.1420*central memory CD8+Tcell

结果显示:戒烟者的smoking signature比吸烟者更低(P<0.001)(图5A);且K-M曲线显示高smoking signature的预后更差(P<0.001)(图5B)。

与吸烟者(AUC=0.55,0.55,0.58)相比,戒烟者有更好的2年,3年,5年的生存率(AUC=0.65,0.67,0.70)(图5C)

单因素,多因素COX回归显示smoking signature能成为潜在独立的预后标志物(P<0.001)(图5D-E)

为了定量的预测LUSC病人的生存率,作者构建了包括smoking signature和临床信息的预测模型,并且校正曲线显示预测值与观测值间有良好的一致性(图5G-F)。

为了验证smoking signature的适用性,作者在7种癌症中分析其与总生存率的相关性。在BLCA,CESC,HNSC,LUAD,LUSC,PAAD中,相比低smoking signature患者,高smoking signature的有更高的危险率(表3)。

 图5 smoking signature的构建及验证

 表3 smoking signature与总生存率的相关性

总结

作为一名医学生,刚接触生信的苦恼和迷茫一直历历在目。慢慢地,把每篇看到的文章做个小的思路总结已成为习惯。而这篇文章关键的地方就是非常的全面,能把RNAseq表达谱,miRNA 表达谱, 体细胞突变数据(SNV), 拷贝数变异数据 (CNV)和DNA甲基化五种不同的数据联合起来,与求出来的差异基因求交集,最后多因素COX回归求取对应的smoking signature。更谨慎的话可以在另外癌症数据中对其进行验证。

这篇文章思路非常清晰,也对初学者非常友好。更换研究的因素和疾病的话,可以成为多组学入门篇的标准套路进行研究。并且也可以分开作为不同的入口,进行新的数据挖掘呢!

附:专业英文术语

BLCA:bladder urothelial carcinoma 膀胱上皮癌

CESC:cervical squamous cell carcinoma宫颈鳞癌

ESCA:esophageal carcinoma食道癌 

HNSC:head and neck squamous cell carcinoma头颈部鳞状细胞癌

LUAD:lung adenocarcinoma肺腺癌

LUSC:lung squamous cell carcinoma肺鳞状细胞癌

PAAD:Pancreatic adenocarcinoma胰腺癌

文献解读

【前沿技术】CRISPR/dCas9技术带你玩转分子互作

2020-8-24 18:01:31

文献解读

利用反向GSEA来识别新的阿尔兹海默症治疗药物候选

2020-8-24 18:07:33

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索