从表达数据计算基质及免疫得分并推断肿瘤纯度

导语

浸润性基质细胞和免疫细胞是肿瘤组织中非肿瘤成分的主要组成部分,不仅在干扰肿瘤信号,而且在肿瘤生物学中具有重要作用。

本工作开发了一种估计方法ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumours using Expression data),使用基因表达特征来推断肿瘤样本中的基质细胞和免疫细胞的比例。ESTIMATE得分与11个肿瘤类型的样本中(TCGA;Agilent、Affymetrix、RNA-Seq)基于拷贝数的肿瘤纯度相关。

背景介绍
恶性实体肿瘤组织不仅包括肿瘤细胞,还包括肿瘤相关的正常上皮细胞和基质细胞、免疫细胞和血管细胞。间质细胞在肿瘤生长、疾病进展和耐药性中具有重要作用。浸润性免疫细胞的作用与环境有关。了解肿瘤组织中与肿瘤相关的正常细胞可能为肿瘤生物学提供重要见解,并有助于开发可靠的预后和预测模型。

目前有多种方法使用DNA拷贝数芯片数据或下一代测序数据来评估临床肿瘤样本中的肿瘤细胞部分。基于拷贝数的肿瘤纯度估计在预测肿瘤样本纯度方面正迅速得到重视,但仅限于有拷贝数的样本。有些研究将基因表达数据从其组成细胞部分反褶积成基因表达谱,其他则通过计算富集分数将从正常组织获得的芯片数据反褶积成细胞类型特定的谱。这些方法利用了不同细胞类型的转录组特性的差异。

本工作提出了一种新的算法,利用癌症样本转录谱的特性来推断肿瘤细胞的内容以及不同的浸润正常细胞,重点研究基质细胞和免疫细胞,并识别与肿瘤组织中基质细胞和免疫细胞浸润相关的特定信号。基于ssGSEA计算基质和免疫评分来预测浸润基质细胞和免疫细胞的水平,生成三个分数:

(1) stromal score基质评分(捕捉肿瘤组织中基质细胞的存在);

(2) immune score免疫评分(肿瘤组织中免疫细胞的浸润情况)

(3) ESTIMATE score评估评分(推断肿瘤纯度)。

Figure 1 | An overview of the ESTIMATE algorithm. 算法使用基因表达数据输出估计的浸润基质细胞和免疫细胞的水平和估计的肿瘤纯度。整合来自6个平台的表达数据,共10412个常见基因,经过筛选得到Stromal signature(141 genes)和Immune signature(141 genes)。基于ssGSEA方法计算Stromal score/Immune score和Estimate score。
方法介绍
01
直接安装使用R包
#下载压缩包,本地安装并导入。
(https://sourceforge.net/projects/estimateproject/)

#或是直接输入命令安装,要求网速。
library(utils)rforge <- "http://r-forge.r-project.org"install.packages("estimate", repos=rforge, dependencies=TRUE)
主要功能函数:
(1) estimateScore:计算基质、免疫和评估分数。
(2) filterCommonGenes:输入数据与10,412个普通基因的交集。
(3) plotPurity:肿瘤纯度绘图。
OvarianCancerExpr <- system.file("extdata", "sample_input.txt", package="estimate")filterCommonGenes(input.f=OvarianCancerExpr, output.f="OV_10412genes.gct", id="GeneSymbol")
input.f(输入数据中的行名必须是基因symbol或Entrez id

output.f—-OV_10412genes.gct

然后计算肿瘤组织中的基质细胞和免疫细胞的评分(基于ssGSEA算法)。

estimateScore("OV_10412genes.gct", "OV_estimate_score.gct", platform="affymetrix")

输出文件OV_estimate_score.gct

plotPurity(scores="OV_estimate_score.gct", samples="s516", platform="affymetrix")

当前路径查看肿瘤纯度—评估分数的相关性图

02
方便查询的网页版
Home  https://bioinformatics.mdanderson.org/estimate/

不同平台上可用的癌症类型表达数据统计是2015年的,目前还没有更新。

(1) Disease

(2) Sample

(3) Overview简介

(4) R Package

小编总结

ESTIMATE使用基因表达数据评估肿瘤样本中基质细胞的存在和免疫细胞的浸润。可用于目前公开可用的数据集,以及新的芯片数据或RNA-Seq数据。该方法的预测能力已通过大型独立数据集验证。但ESTIMATE无法准确推断造血或间质肿瘤(例如,白血病,肉瘤和胃肠道间质肿瘤)的肿瘤细胞性,并且(由于数据缺乏)无法应用于前列腺癌或胰腺癌等肿瘤类型。

REF:Yoshihara K, Shahmoradgoli M, Martínez E, et al. Inferring tumour purity and stromal and immune cell admixture from expression data. Nat Commun. 2013;4:2612. doi:10.1038/ncomms3612
文献解读

从表达谱数据看早期肺鳞癌的进化和免疫

2020-8-28 0:38:34

文献解读

多区域测序分析肺腺癌的瘤内异质性

2020-8-28 0:44:59

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索