用蛋白质组学特征识别出新的泛癌分子亚型

Pan-cancer molecular subtypes revealed by mass spectrometry-based proteomic characterization of more than 500 human cancers

IF:11.878

Published:2019 Dec 12

 利用转录组学或蛋白质组学数据分析癌症分子亚型,是常见的人类肿瘤研究之一。CPTAC进行了蛋白质表达与其他数据类型(包括mRNA和突变)之间的综合分析研究,识别以前的转录组学分析可能遗漏的分子亚型和相关通路特征。

 一、数据

1. CPTAC(The Clinical Proteomic Tumor Analysis Consortium)基于质谱分析的总蛋白数据集

(1)The CPTAC Confirmation/Discovery cohort,包含5个子集(Fig. 1a)。 CPTAC总蛋白数据集包含总共12247个基因,其中9764个基因在至少三种癌症类型中被检测到(Fig. 1b)。

(2)The CPTAC-TCGA datasets(processed protein expression data;用于独立观测或验证),包含364 TCGA癌症样本(Fig. 1a)。

2. TCGA 数据集

TCGA转录和RPPA(reverse-phase protein array)data,包括32癌症(Fig.1a,TCGA pan32)。 

3. Entrez Gene的人类蛋白互作网络

 

对于所有的蛋白质组和转录组数据在每种癌症类型的表达值进行了标准化,因此组织差异和批次效应都不会影响到下游分析。

二、方法结果

1.基于蛋白质的泛癌分子亚型

用R包ConsensusClusterPlus来识别样本(CPTAC Confirmatory/Discovery cohort)的结构和关系。对于无监督聚类分析,根据(5个CPTAC projects中的)每个数据集的平均标准差,从CPTAC Confirmatory/Discovery总的蛋白数据集(至少3/5的癌症中出现,9764个蛋白)中选择2000差异最大的蛋白,差异大小用平均标准差(using log-transformed expression values centered to standard deviations from the median within each cancer type)判断。
基于质谱的蛋白质组学数据定义了10种不同的癌症亚型(Table 1)。

这些基于蛋白质数据的亚型中有几个与基于特定mRNA的泛癌症分类高度重叠,都具有广泛的分子模式(Fig. 2a)。 
进一步探索应用于TCGA pan32 cohort(这里将每个亚型的top 100过表达蛋白(Fig. 2b,共1000个蛋白)的表达值映射到TCGA数据集中相应的标准化mRNA值,与CPTAC的上述观察结果类似。几个基于蛋白数据定义的亚型与特定的基于mRNA的泛癌分类亚型有明显重叠(单侧Fisher精确检验)(Fig. 2c)。

2.在外部数据集中观察到基于蛋白质组的癌症亚型

用TCGA pan32 mRNA数据和RPPA数据,以Top 1000总蛋白(Fig. 3a-b)作为分类器区分10个亚型。对于每一个泛癌亚型,基于中心表达数据矩阵计算每个基因或蛋白的平均表达值。计算每个外部数据表达谱和泛癌亚型平均表达谱之间的皮尔森相关,与哪个亚型最相关,定义外部数据癌症样本为为哪个亚型。

3.基于蛋白质的亚型之间的通路水平差异分析

为了深入了解各种以蛋白组为基础的泛癌亚型之间的区别,将几种通路相关基因特征应用于CPTAC蛋白组表达谱以及TCGA mRNA表达谱(Fig. 4a)(计算与通路相关的基因表达特征分值,将log2转换表达谱值进行t-test差异分析,Storey and Tibshirani方法进行FDR校正。单侧Fisher精确检验计算GO term的显著性。)。总的来说,在CPTAC蛋白数据集和TCGA mRNA数据集两者之间观察到的模式有广泛的一致性。
每个基于蛋白组的亚型都有特异的通路水平变化和功能基因类别

4.蛋白质组亚型之间的免疫相关差异

k2涉及适应性免疫应答和T细胞活化,k3亚型涉及体液免疫应答,分别与c3和c10相关(Fig. 2 a、c)。然而,c3和c10整体相似,但k2和k3两种亚型的蛋白差异表达模式和相关基因分类都不同,各有特点(Fig. 2 b、e)。k2和k3之间的一些区别在以前的基于mRNA的亚型中并不明显。
另外,蛋白质组亚型(k6,k7)间也存在基质相关差异。

5.蛋白质组亚型关联的可视化

UALCAN(http://ualcan.path.uab.edu)允许用户分析查询蛋白或特定肿瘤亚组蛋白的相对表达水平。预先定义的肿瘤亚组可能包括癌症分期、肿瘤分级、种族或其他临床病理特征。基于蛋白组学的亚型比较,可以用于特定的癌症类型。分析结果以几种文件格式下载。用户还可以检查UALCAN中的TCGA数据集,查看与CPTAC数据分析中特别感兴趣的蛋白质相关的mRNA或DNA甲基化特征的差异模式。

 

小编总结

基于质谱分析蛋白质组学基础上发现新的泛癌亚型,是本研究的主要特点。发现以前基于转录组的研究中没有发现的癌症亚型,可以加深我们对癌症的理解,对于临床上疾病诊断和治疗都具有重要意义,因为这意味着更多治疗机会。那我们是不是可以考虑用其他组学方法来分析癌症呢?

文献解读

胰腺癌多组学分析

2020-8-28 4:35:13

文献解读

肿瘤多区域取样的进化分析六:追踪非小细胞肺癌的进展

2020-8-28 4:36:46

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索