人类致癌通路的全面综述

A comprehensive overview of oncogenic pathways in human cancer

Briefings in Bioinformatics

2020 May 21;21(3):957-969.

doi: 10.1093/bib/bbz046.

IF:9.101

这篇文章是哈尔滨医科大学生物信息科学与技术学院的李霞教授团队研究完成的,今年5月21日发表于Briefings in Bioinformatics杂志。李霞教授,“龙江学者”特聘教授、哈医大生物信息科学与技术学院院长,主要研究方向为基于生物医学大数据的重大疾病的分子分型与生物标志物识别、非编码RNA与复杂疾病调控机制研究。

背景介绍
致癌通路的失调可能激活hallmark过程,进而引发肿瘤的发生和发展。了解生物通路的改变如何导致肿瘤发生,可能有助于开发新的癌症诊断和治疗策略。然而,我们对这些致癌通路如何在癌症中失调的了解仍然有限。特别是,癌症相关的生物学通路的高质量资源仍然是不可用的。相关信息碎片化,隐藏在成千上万的文献中,给研究人员系统分析这些致癌通路带来不便。对这些致癌通路的总结和描述可以为癌症的发病机制提供新的见解。

最近,可用的如TCGA的大规模癌症基因和药物基因组学数据集,CCLE和CellMiner的多维组学和癌症细胞系的药物敏感性数据以及DrugBank的药物-靶点数据,为研究发病机理提供了一个新的机会,提高癌症的治疗。特别是,一些最新的研究关注于基于多平台的在生物通路背景下的癌症分子改变事件。这些研究不仅为癌症的靶向和联合治疗提供了重要的机会,而且强调了通过整合这些多维度的通路来解密致癌通路的重要性。然而,这些研究大多只关注一种特定的致癌通路。目前,对不同癌症类型和致癌通路之间的详细关联了解相对较少,不同组学水平下的泛癌中失调的多种致癌通路之间的共性和差异尚未得到很好的描述。

本工作首先从PubMed、Google Scholar和TCGA等多个数据库中收集论文。总的来说,回顾了大约8500篇已发表的论文,并手工收集了4709个实验支持的7个物种中2427条通路与49种癌症之间的关系。基于上述资源和TCGA多组数据集,对不同肿瘤类型的这些致癌通路进行了综合分析。结果显示,这些致癌通路的改变和生存相关性在不同的肿瘤类型中是不同的。这说明不同的致瘤通路在肿瘤类型和组学水平上具有不同的功能。这些关于致癌通路的分析有助于研究癌症的发病机制和发现潜在的治疗方法。最后,开发了一个免费的数据资源CPAD(http://bio-bigdata.hrbmu.edu.cn/CPAD/)手动整合癌症-通路关系;TCGA泛癌样本的多维组学数据和临床数据;癌细胞系的药物敏感性和多维组学数据,可以帮助研究人员在通路的背景下了解发病机制和研发新型治疗人类癌症的方法。
数据介绍

1. 不同数据库的文献搜集

从PubMed、Google Scholar和TCGA等多个数据库中检索癌症-通路关联数据。最终从PubMed和Google Scholar获得发表文献约8500篇, Supplementary Table S1提供。从TCGA projects获取12篇文献,Supplementary Table S2提供。

2. 收集实验支持的癌症-通路关联

手动提取手动提取中实验验证的癌症通路的关联关系。手工注释通路的名字到KEGG数据库,根据癌症名称和原始组织,将文献挖掘的癌症名称注释到TCGA癌症类型,Supplementary Table S3提供。最终有49个癌症和1557个通路之间的4709个实验验证的关联,有7 个物种的2427的上游调控因子。

3. 将致癌通路与癌症hallmarks联系起来

Gene Ontology下载的 GO 基因集作为cancer hallmarks。使用GOSemSim包计算它们的语义相似性来建立pathways与cancer hallmarks的关联。如果语义相似度大于0.8,该通路被认为与cancer hallmarks有关。

4. 致癌通路的上游调节因子

不仅收集了实验验证的致癌通路的上游调节因子,而且还提供了匹配到KEGG数据库致癌通路的计算的预测调节因子。预测的上游调控因子包括转录因子(transcription factors, TFs)、microRNAs (micnas)、长链非编码RNA (long noncoding RNAs, lncRNAs)和小分子/药物。(1)首先从已发表的数据库中获得调控因子-靶基因关系。(2)对于每个致癌通路,TFs/miRNAs/lncRNAs的靶基因显著富集(超几何检验P<0.05)到该通路的,为识别的上游调控因子。

5. TCGA的多组学数据集

文献检索的49种肿瘤类型中,有28种肿瘤类型注释到TCGA(Supplementary Table S3)。TCGA数据库中获取了28种癌症类型(急性髓系白血病除外)的基因表达数据(level 3)、突变数据(level 2)、拷贝数数据(level 3)、甲基化数据(level 3)以及近 10 000 例患者的临床数据。详细信息补充文件提供。

6. 生存分析

用生存分析来评估不同组学水平的癌基因通路与患者总体生存的关系。对于参与致癌通路的给定基因,根据基因的表达水平(甲基化水平、拷贝数水平和突变状态)将每种肿瘤类型的样本分为两组。然后,使用Kaplan-Meier生存曲线和log-rank检验来评估两组患者的生存差异。然后还进行了基于通路分析方法的生存分析。使用pathifier方法,名为“pathifier”,根据表达数据推断出每个肿瘤样本在每个致癌通路中的通路失调评分,然后,对于给定的致癌通路,执行Kaplan-Meier分析比较了top三分之一失调评分的样本和bottom三分之一失调评分的样本的生存差异。

结果解析
01
癌症-通路关联关系总结

通过检索,有1008条通路被分进41条KEGG的通路。在接下来的分析中,主要关注了这41个KEGG通路,在本研究中被称为致癌通路。检索到起源于12个组织系统,如乳房、消化道、胸部等的49种癌症(Figure 1A)。对通路的分析发现,它们分布在不同的通路类别中,包括细胞过程、环境信息进程、遗传信息进程、人类疾病、新陈代谢和机体系统 (Figure 1B),这些通路大多与至少一个癌症标志过程有关 (Figure 1C)。根据收集到的数据建立了癌症通路关联网络,发现乳腺癌和PI3K-AKT通路之间的关联所支持的研究最多,然后是肝细胞癌与PI3K-AKT通路 (Figure 1D)。接下来,重点研究了癌症与通路度在癌症-通路关系中的景观。每个通路的度被定义为其相关癌症类型的数量,而每个癌症的度是其相关通路的数量。乳腺癌、肝癌、膀胱癌、胶质瘤、卵巢癌、结直肠癌、胰腺癌、肺癌、前列腺癌和胃癌的连通性最高;它们每一个都与这41个致癌通路中的至少20个有关(Figure 1E)。这与这些癌症的发病率都相对较高,因此得到了更多研究者的关注是一致的。对于通路,MAPK、PI3K-Akt、mTOR、凋亡和NF-kappa B通路在至少34种癌症类型中失调(Figure 1F)。此外,其他已知的致癌通路如Wnt、P53、Notch和Ras通路也表现出较高的连通性。特别是,MAPK信号通路在这41种致癌通路中显示出最高的连通性,与多达40种癌症类型相关。通过回顾收集的数据集发现,228条与MAPK信号通路相关的路径(以ERK、JNK和P38为中心)经实验证实与一些癌症有关(Figure 1G)。

基于相似疾病可能是由共同的致癌通路失调引起的概念,构建了癌症-癌症网络,发现乳腺癌和肝细胞癌共同最多(最多29个)致癌通路。包括卵巢癌、子宫内膜癌和宫颈癌在内的一些妇科肿瘤类型也通过共享较高数量的致癌通路而在网络中紧密相连。这表明癌症类型在起源细胞类型相似的情况下共享更多的致癌通路相似的,构建了通路-通路网络,发现MAPK、PI3K-Akt、NF-kappa B、凋亡、mTOR、Wnt、Jak-STAT和p53信号通路紧密连接,表明这些致癌通路的协同失调可能有助于肿瘤的发生。

02
人类致癌通路多组学分析

为了进一步了解致癌通路在癌症中的作用,进行了多组学分析,即在不同的组学水平上探索这些致癌通路在泛癌症中的活动和改变。首先通过整合TCGA数据库的10000个患者的多组数据(表达、甲基化、体细胞突变和拷贝数),提供了这些致癌通路的详细活动和改变情况(Figure 2)。然后在多组学水平上对人类癌症的这些致癌通路进行了系统分析。

为了在表达水平上表征致癌通路的活性,分析了9455个TCGA泛癌肿瘤的RNA-Seq谱。通过计算每个肿瘤中参与pathway的基因的平均表达值来评估pathway活性评分 (Figure 2A)。这些通路的某些活动可以用癌症生物学来解释。具体来说,只有在特定的肿瘤类型中,一些致癌通路的活性评分才有显著的高水平。此外,一些致癌通路的活性得分在不同肿瘤类型中存在差异(Figure 2A)。

与计算表达类似,根据每个肿瘤的甲基化情况计算了通路的甲基化活性评分。甲基化在不同肿瘤类型间的通路活性分布如 Figure 2B所示。与其他肿瘤类型相比,这41种致癌通路在LGG中均表现出较高水平的通路活性。

接下来,分析了基于体细胞突变和跨肿瘤类型的拷贝数变异的致癌通路基因的基因组改变。GISTIC 2.0方法确定的+2和-2分别代表拷贝数扩增和缺失。对于每种癌症类型,分别计算了在non-silent体细胞突变、high-level扩增和缺失时,这些致癌通路中每一个发生改变的样本的百分比。如果某一特定致癌通路的至少一个基因发生了改变,则该肿瘤样本被认为在该致癌通路中发生了改变。对26种肿瘤类型的41种致癌通路的基因组改变情况表明,non-silent体细胞突变和high-level扩增更有可能发生在致癌通路中(Figure 2C)。最后,在多重组学背景下检查了致癌通路中的基因,专注于KRAS、MAPK1和MAPK7是MAPK信号通路的三条主要通路的关键基因,发现KRAS的突变主要发生在COAD中,而MAPK1的突变主要发生在CESC中(Figure 2D)。通过观察高水平扩增与高表达一致,高水平缺失的样本与低表达的样本一致,发现这些基因的表达受到基因组改变的影响(Figure 2E)。

03
全面调查生存相关的致癌通路

对于每个致癌通路(41个),分别根据不同肿瘤类型的四种组学数据确定了生存相关基因。Supplementary Table S6 提供了在至少15种癌症类型中生存相关的致癌通路基因的详细信息。然后,基于通路基因的生存相关关系,绘制了致癌通路的多组生存图谱 (Figure 3A)。在不同肿瘤类型和组学水平上,致癌通路的生存相关性各不相同。在一种特定的癌症类型中,检查了是否存在每一种致癌通路的显性组学特征。显性组学特征定义为该组数据所识别的与生存相关的基因比例大于该通路内四个基因组数据所识别的所有生存相关基因的50%的组学水平。在某些癌症类型中,生存相关性在大多数致癌通路中始终被相同的组学特征所主导(Figure 3A)。

接下来在不同的组学水平上分析了特定的致癌通路基因与患者生存的相关性,重点研究Wnt、RAS-MAPK和PI3K-AKTmTOR通路相关基因,这些基因在肿瘤类型和组学水平上的生存相关性不同 (Figure 3B)。此外,单个基因对肿瘤类型的影响也存在差异。此外,在特定的癌症类型中,在不同的组学水平上,在致癌通路中生存相关性也不同。以上分析表明,结合不同组学的数据可以提供更准确、全面的信息来预测癌症患者的生存期。

接下来,使用个性化通路分析方法pathifier,从表达水平的通路来评估致癌通路的生存相关性。发现PI3K-Akt信号通路、凋亡和EGFR酪氨酸激酶抑制剂耐药三种通路(其次是HIF-1 signaling pathway、focal adhesion、ErbB signaling pathway、Fanconi anemia pathway和Ras signaling pathway)的失调均与大多数癌症类型的生存相关。在上述八种通路中,PI3K-Akt信号通路和凋亡通路在癌症-通路关联网络中表现出较高的度 (Figure 1F)。MAPK信号通路与多达40种癌症类型相关(度最高),然而,这一通路的失调仅与四种癌症的生存有关。这表明,与癌症的发生和发展相关的致癌通路可能与患者的生存无关。综上所述,从通路基因角度对这些致癌通路的生存相关性进行解剖,不仅可以提供更详细的表征,还可以反映致癌通路的全局生存相关性。

04
对致癌通路的上游调节因子的系统调查

本工作收集了2427个可能影响致癌通路活性的上游调控因子。这些调控因子可以分为几个类别,如miRNA、lncRNA和TF。此外,发现许多小分子/化合物/药物可以作为上游调控因子改变通路功能,从而影响癌细胞的生长、增殖和凋亡。结果发现,非编码RNA (miRNA和lncRNA)在各致癌通路中的数量均显著高于TF和药物,然后,密切关注与单一通路相关的调节因子,发现PI3K-Akt信号通路的miRNA、lncRNA和TF调控因子数量最多,靶向药物数量相对较少,而钙信号通路则相反(Figure 4A)。

接下来,提供了一个层次模型来系统地理解人类癌症中的调控因子-通路-癌症调控网络(Figure 4B)。非编码RNA和TFs等上游调控因子调控其靶基因,进一步影响级联通路,导致癌症标志的失调,进而促进人类癌症的发生和发展。同样,药物也可以通过药物靶向通路-肿瘤标志轴来控制癌细胞的生长和促进癌细胞的凋亡,从而发挥治疗癌症的作用。

05
CPAD:探索致癌通路的综合资源

构建了CPAD资源(http://bio-bigdata.hrbmu.edu.cn/CPAD/),它收集了支持癌症通路的实验数据,也提供了与癌症多组学数据、临床数据和药物基因组数据的无缝链接。从TCGA和CellMiner数据库中整合了多组学数据(表达、突变、CNV和甲基化)、临床数据和大规模样本及细胞系的药物敏感性数据 (Figure 5)。CPAD为致癌通路及其上游调控因子提供了一些重要的属性,包括癌症样本的分子改变、致癌通路及其调控因子的临床和药物反应相关性。

该数据库不仅提供了灵活的查询、浏览、可视化和下载实验验证的癌症通路关联数据的平台,还提供了在数据库中探索肿瘤通路及其调控因子的多组改变事件、临床和药理学相关属性的接口 (Figure 6)。(1)‘Search’:可以根据癌症名称或通路名称进行搜索。(2)‘Browse’:根据组织来源和KEGG通路对肿瘤名称和通路名称进行分类。用户可以通过点击特定的癌症或通路名称来浏览CPAD。在搜索和浏览结果页面,CPAD提供了每一个实验验证的癌症生物通路条目的详细描述,包括调节器名称、通路名称、通路状态、通路相关的癌症标志、关键基因、癌症名称、结果描述、检测方法、原始论文信息等。特别是,用户还可以在CPAD中探索多组学改变事件、致癌通路的临床和药理学相关属性及其上游调控因子。通过结合CellMiner的化疗应答和多组学分子谱预测致癌通路基因的药物敏感性相关性。(3)CPAD提供了一个提交页面,用户可以提交新的有效的癌症-通路关联。一旦经审核批准,提交的文件将被整合到CPAD中。(4)下载页面允许用户免费下载所有关联关系。(5)在“帮助”页面中还提供了详细的教程。

小编总结

 

本工作首先从PubMed、Google Scholar和TCGA等多个数据库中收集实验支持的7个物种中2427条通路与49种癌症之间的关系,然后对不同肿瘤类型的这些致癌通路进行了综合分析,发现在起源细胞类型相似的情况下的癌症类型共享更多的致癌通路,致癌通路的协同失调可能有助于肿瘤的发生。然后在多组学水平上(表达、突变、拷贝数和甲基化)进行分析,发现不同的致瘤通路在肿瘤类型和组学水平上具有不同的功能。生存分析显示,致癌通路的改变和生存相关性在不同的肿瘤类型中是不同的。最后,开发了一个免费的数据资源CPAD,帮助我们在通路的背景下进一步对发病机制等进行研究。

引用:

Li F, Wu T, Xu Y, et al. A comprehensive overview of oncogenic pathways in human cancer. Brief Bioinform. 2020;21(3):957‐969. doi:10.1093/bib/bbz046

文献解读

基于表达谱的拓扑数据分析识别癌相关的遗传变异

2020-8-28 4:14:25

文献解读

去势耐药前列腺癌分型分析

2020-8-28 4:17:18

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索