评估肿瘤纯度的方法(四):基于甲基化 LUMP和PAMAS

我们在对肿瘤样本进行研究的时候,为了保证研究质量,通常会选择肿瘤纯度高的样本,那么一般在分析前这样就需要评估样本纯度,接下来我们会介绍一些评估样本纯度的方法。

背景介绍
DNA甲基化是控制基因表达的重要表观遗传标记,在包括胚胎发育、基因组印迹、x染色体失活、转座因子抑制和保持染色体稳定性在内的许多细胞发育过程中起着关键作用。近年来,全基因组亚硫酸氢盐测序(WGBS)和简并代表性亚硫酸氢盐测序技术(RRBS)被越来越多地用于分析肿瘤与正常肿瘤之间的DNA甲基化模式,其中差异甲基化区域不仅是重要的癌症生物标志物和治疗靶点,而且还为肿瘤的发生发展机制提供了见解。

在大多数情况下,肿瘤组织不是单纯的,而是含有数量未知的正常细胞。肿瘤样本中正常细胞的污染使得肿瘤和正常细胞之间的甲基化差异更加复杂。

LUMP方法

LUMP (leukocytes unmethylation for purity)方法是在Systematic pan-cancer analysis of tumour purity这篇工作中介绍的,作为对照分析,这个工作同时用ESTIMATE(基于表达)、ABSOLUTE(基于拷贝数)、 LUMP(基于甲基化)和IHC(免疫组化)的方法对TCGA的21种癌型的9,364 个样本评估肿瘤纯度,数据提供在Supplementary Data 1,我们可以直接下载使用。(我们公众号之前有介绍过ESTIMATE和ABSOLUTE)

1. LUMP方法介绍:

(1)获取10个免疫细胞(whole blood, peripheral blood mononuclear cell, granulocytes, neutrophils, eosinophils, CD4+ , CD8+ , CD14+ , CD19+ 和CD56+)的DNA甲基化谱(HumanMethylation450),每种细胞有6个重复样本,所以共60个样本。在60个样本中识别到30106 个非甲基化的位点,限制unmethylated (<5%)。

(2)利用TCGA的肿瘤的甲基化谱,在21种癌型的9,364 肿瘤样本中识别到174696个甲基化位点,限制methylated (>30%)。

(3)以上两部分交叠44个 CpG 位点,即非甲基化的免疫特异的CpG位点。LUMP评估的值就定义为这些位点的均值甲基化,经计算为0.85。

2. IHC(immunohistochemistry)评估肿瘤纯度

是用Nationwide Children’s Hospital Biospecimen Core Resource生产的苏木精和伊红染色载玻片的图像分析。

3. 下图为文章中展示每两种评估方法之间的相关性

PAMES方法

PAMES (Purity Assessment from clonal MEthylation Sites),使用几十个高度克隆的肿瘤类型特异性CpG位点的甲基化水平来估计肿瘤样本的纯度,不需要匹配正常对照,也不受肿瘤微环境的影响。在不同数据集的6 000多个样本和肿瘤细胞系进行了验证评估,与其他方式的计算结果高度一致。并且研究者将PAMES的计算能力扩展到利用CpG岛进行分析,而不仅限于特异性的CpG位点。

高甲基化可能发生在抑癌基因的调控区域,导致抑癌基因失活;去甲基化可能导致常染色质状态的形成,使致癌基因可被转录因子利用。每个肿瘤类型内的高度甲基化具有一致性。比如在前列腺癌患者中,GSTP1在几乎所有肿瘤中都存在高甲基化,其甲基化信号提示该事件是克隆clonal 的。虽然这些高度重复的事件在肿瘤发生和发展中的作用尚不完全清楚,但本工作认为,差异甲基化如果是克隆的,可以被认为是评估每个肿瘤样本细胞含量(即肿瘤纯度)的良好指标。

甲基化beta值,从0-1,0代表unmethylated,1代表fully methylated。肿瘤样本的beta值低于1的时候,代表肿瘤样本中混合了正常细胞。因此,不同甲基化位点的beta值可以用来直接评估肿瘤样品的纯度(也可用1-beta of unmethylated值)。

1. PAMES方法介绍

(1)从TCGA下载14个癌型的甲基化数据(HumanMethylation450),包含5,623个肿瘤样本和712个正常样本。

(2)识别tumor-specific CpG。计算TCGA的每一种癌型的每一个位点的ROC曲线的AUC,接近1的AUC确定了肿瘤和正常样本之间的最佳 segregations,肿瘤样本的平均beta值大于正常样本(hyper-methylation);AUC评分接近于0时,表示肿瘤样本的平均beta值低于正常样本(hypo-methylation)。对于每种肿瘤类型,认为那些AUC评分低于或等于0.2或高于或等于0.8的探针是有意义的。根据AUC的值对位点进行排序,选出排名前N位和排名后N位的位点,一共保留了2N个位点。

(3)若使用CpG岛进行评估,将CpG位点的beta值聚合到相应的CpG岛。CpG岛的beta值是由映射到它的CpG位点的beta值的中位数估计的,至少有3个位点的CpG岛被考虑用于下游分析。选择 top-ranking CpG 岛(UCSC genome browser下载注释的CpG 岛)。

(4)通过对所选的 informative位点(CpG 岛)的平均(中位)的beta (超甲基化位点)和1-beta(低甲基化位点)来估计每个样本的肿瘤纯度。下图是分析流程。

2. R包使用

最近家里网不好 只能下载本地再安装了

https://github.com/cgplab/PAMES 这里是R包地址

install.packages("C:/Users/1/Desktop/cgplab-PAMES-v2.2-5-g8a26492.tar.gz",repos = NULL)library(PAMES)

(1)compute_AUC计算甲基化差异

比较肿瘤样本和control samples样本的甲基化beta值差异

①输入数据

肿瘤样本 beta-values:tumor_toy_data

正常/对照样本beta-values:control_toy_data

②计算肿瘤样本AUC

auc_data <- compute_AUC(tumor_toy_data, control_toy_data)

输出为一组AUC值的向量

(2)select_informative_sites识别informative CpG位点

生成一列用来评估肿瘤纯度的informative CpG sites。

info_sites.hg38 <- select_informative_sites(tumor_toy_data,                                            auc_data,                                            platform="27k",      #实验使用的Illumina平台,可选450k或27k                                            genome="hg38"      #基因组的版本      )

输出informative sites

(3)compute_purity计算纯度

 purity <- compute_purity(tumor_toy_data,                          list(hyper=info_sites.hg38$hyper,                               hypo=info_sites.hg38$hypo),          ##list提供由 select_informative_sites生成的informative CpG位点,          ##这里输入使用的CpG位点索引                          platform="27k"                          )

输出为纯度评估值

4)reduce_to_regions

当使用其他技术(如Bisulphite Sequencing)获得的甲基化数据时,用户必须使用数据 reduce_to_regions将它们的CpG位点集映射到不同的甲基化区域(如CpG岛),然后再进行上述(1)(2)(3)的计算

将来自不同CpG位点的几个beta值降为CpG位点位于的一个基因组区域(如CpG岛)相关的单个beta值。不同的技术在不同CpG位点重新获取到DNA甲基化水平,使直接比较成为可能。

①输入数据

beta_table是beta-values矩阵

cpg_sites是提供CpG位点的基因组位置数据

cpg_regions提供基因组区域的基因组位置的数据框

②运行

reduced_data <- reduce_to_regions(bs_toy_matrix,               # bs_toy_matrix是beta-values矩阵                                   bs_toy_sites,              #bs_toy_sites是提供CpG位点的基因组位置                                   cpg_islands[1:10,]              #cpg_islands是提供基因组区域的基因组位置的数据框              )

输出beta values矩阵

小编总结

今天我们介绍两个基于甲基化评估肿瘤纯的方法LUMP和PAMES。LUMP根据肿瘤的非甲基化的免疫特异的CpG位点来定义肿瘤纯度,PAMES根据一组癌型特异的高克隆性的CpG位点或CpG岛来定义肿瘤纯度。就功能上来说PAMES比较广泛,大家可以有选择的使用。

引用:

(1) Aran, D., Sirota, M. & Butte, A. Systematic pan-cancer analysis of tumour purity. Nat Commun 6, 8971 (2015). https://doi.org/10.1038/ncomms9971

(2) Benelli M, Romagnoli D, Demichelis F. Tumor purity quantification by clonal DNA methylation signatures. Bioinformatics. 2018;34(10):1642–1649. doi:10.1093/bioinformatics/bty011

生物信息学

你所研究的基因是否与肿瘤微环境相关

2020-8-28 1:19:57

生物信息学

评估肿瘤纯度的方法(三): 基于拷贝数变异 ABSOLUTE和DoAbsolute

2020-8-28 4:05:50

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索