评估肿瘤纯度的方法(二):基于单核苷酸变异 TPES

对肿瘤样本进行基因组和分子分析时,首先需要定量肿瘤和混合的正常细胞的比例[肿瘤纯度(TP)或肿瘤细胞性],用以评估体细胞损伤检测边界并进行适当的比较分析。接下来我们会介绍一些评估样本纯度的方法。

背景介绍
基于体细胞拷贝数变异(SCNAs)来评估肿瘤纯度的方法有ABSOLUTE (Carter et al.,2012)、ASCAT (Van Looet al.,2010)、Sequenza (Favero et al.,2015)和CLONET (Prandi et al.,2014);基于转录组数据评估TP的方法有ESTIMATE (Yoshihara et al., 2013);基于甲基化数据评估TP的方法有LUMP (Aran et al., 2015)和PAMES(Benelli et al., 2018);基于突变评估TP的方法有 PurityEst (Su et al., 2012)。TCGA支持使用基于SCNAs的工具来评估TP,而对于甲状腺癌(THCA)和肾脏肾透明细胞癌(KIRC),其基因组是‘quiet’(可识别的SCNAs是非异常的),所以这种基于SCNAs的TP评估方法是不适用的。

估计肿瘤纯度的方法TPES,是根据体细胞单核苷酸变异(SNVs)的可变等位基因片段(VAFs)在拷贝数中性的肿瘤片段中的分布来估计DNA纯度。

TPES方法

纯的肿瘤样本的变异等位基因分数(VAF)分布应该是0.5,(例如观察肿瘤细胞,如果所有的细胞都含有相同的异质突变,那么肿瘤细胞纯度为100%,变异等位基因分数是50%,即每个染色体的一半)。一些技术手段和癌型特异因素会影响VAF值,并且例如,如果SNV在拷贝数为3的区域出现,其VAF是只会在1/3,2/3或1左右波动。

认为二倍体片段内的克隆单等位SNV适合于TP评估,命名为p-SNV。通过使用保守的方法选择合适的p-SNV,用来评估TP,确定用来评估纯度值所需的最小SNV数量。为了最大程度减少每个样本的假阳性p-SNV数量,TPES使用两个主要的过滤步骤。

TPES的第一个过滤步骤:

(i)通过对每个基因组片段的log2R值(肿瘤与正常细胞覆盖率进行log2转化),进行保守筛选,如[-0.1,0.1],来识别拷贝数中性片段中SNVs。

(ii)通过染色体倍性(TPES输入参数为连续值)来调整log2R分布,解释非整倍性基因组。

(iii)通过保留那些分别在定义的阈值之上和之下的替代碱基和AF的读取次数(默认设置为5和0.55),来选择假定杂合SNVs。

TPES的第二个过滤步骤:

为了避免性别分层,将X和Y染色体从分析中排除。首先指定一组杂合的拷贝数中性SNVs,即cnn-SNVs,cnn-SNVs是SNVs的子集。在第二个过滤步骤中,TPES从设置的cnn-SNV中删除假定的亚克隆突变。通过使用一定范围的带宽值的核密度评估(KDE)使观测cnn-SNVs的VAF分布平滑化。

该方法用于TCGA数据集,获得不同肿瘤类型的p-SNVs。为了系统地评估能够可靠地估计TP的最小数量的p-SNVs,将TPES与基于SCNA的评估方法进行了比较。图A显示,> 9个p-SNVs与CLONET估计值具有很大的相关性;ABSOLUTE和ASCAT观察到了类似的趋势。

通过对TCGA的30个癌型的7809个样本用TPES和其余7种方法进行评估,用斯皮尔曼相关评估结果,CLONET 与 TPES有高的一致性(图A,B)。

R包应用

01
TPES_purity计算样本纯度

例:TCGA_A8_A0A7

(1)使用数据:

TCGA_A8_A0A7_seg:

TCGA_A8_A0A7样本的SEG文件,为数据框。

TCGA_A8_A0A7_maf:

TCGA_A8_A0A7样本的体细胞SNVs计数数据,为数据框,包含SNV的染色体,SNV的位置,参考和替代碱基count,以及样品ID。

TCGA_A8_A0A7_ploidy:

TCGA_A8_A0A7样本的染色体倍性数据,数据框。

(2)计算纯度:

TPES_purity(ID= "TCGA-A8-A0A7", SEGfile = TCGA_A8_A0A7_seg,            SNVsReadCountsFile =TCGA_A8_A0A7_maf, ploidy = TCGA_A8_A0A7_ploidy,            RMB = 0.47, maxAF= 0.55, minCov = 10, minAltReads = 5, minSNVs = 10)

参数解释:

#RMB:

参考匹配偏差(Reference Mapping Bias)值。参考基因组在任何给定的位点上只包含一个等位基因,因此携带非参考等位基因的读序列在比对时不太可能被匹配到;导致了从0.5的偏移,它可以用1−medAF评估,其中medAF是样本的种系杂合SNPs等位分数(AF)的中位数。默认值为0.47。

#maxAF:

对SNVs等位基因分数(AF)分布的滤波。这个对于确保只保留杂合SNVs是必要的。无性系和亚无性系SNVs,其AF大于maxAF,将会被去除。

#minCov:

保留SNV的最小覆盖范围

#minAltReads:

保留的SNV的替代碱基的最小覆盖范围

#minSNVs:

评估纯度所需的最小SNV数量

(3)输出结果:

TPES_purity:

sample:样本ID

purity:TPES评估的样本纯度

purity.min:TPES评估样本的最小纯度

purity.max:TPES评估样本的最大纯度

n.segs:TPES使用的中性片段的拷贝数

n.SNVs:TPES使用的SNVs数

RMB:用来评估纯度的参考匹配偏差值

BandWidth:TPES选择的密度函数的平滑带宽值

log:报告运行是否成功,否则提供调试信息

02
TPES_report计算纯度、生成图形报告

TPES_report函数生成关于TPES_purity使用的假定克隆SNVs的等位基因分数值和TPES_purity计算的密度函数的图形报告。

例:TCGA_A8_A0A7

TPES_report(ID= "TCGA-A8-A0A7", SEGfile = TCGA_A8_A0A7_seg,            SNVsReadCountsFile =TCGA_A8_A0A7_maf, ploidy = TCGA_A8_A0A7_ploidy,            RMB = 0.47, maxAF = 0.55, minCov =10, minAltReads = 5, minSNVs = 10)

输出图形:

柱状图表示了推测的克隆和亚克隆SNVs在拷贝数中性片段和TPES检测到的峰值的等位分数分布。密度图表示密度函数如何根据不同的带宽值变化;只考虑导致最多两个峰值的带宽值。

小编总结

TPES方法是通过计算体细胞单核苷酸变异(SNVs)的可变等位基因片段(VAFs)的分布来评估DNA的纯度,它的优势是计算拷贝数为中性的肿瘤纯度,比如SCNAs非异常的甲状腺癌(THCA)和肾脏肾透明细胞癌(KIRC)。同时TPES方法与其他评估肿瘤纯度的方法有很高的一致性。

引用:

Locallo A, Prandi D, Fedrizzi T, Demichelis F. TPES: tumor purity estimation from SNVs. Bioinformatics. 2019;35(21):4433–4435. doi:10.1093/bioinformatics/btz406

杂谈

TCGA的肿瘤突变负荷

2020-8-28 0:56:33

杂谈

一文看懂免疫组库测序的各种评价指标

2020-8-28 4:08:59

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索