有害同义突变预测的计算方法的比较与整合

Comparison and integration of computational methods for deleterious synonymous mutation prediction

Briefings in Bioinformatics, 00(00), 2019, 1–12

doi: 10.1093/bib/bbz047

IF:9.101

新一代测序技术已经在人类基因组中发现了许多不改变氨基酸的同义突变。近年来,许多研究指出了同义突变在许多人类疾病中的重要作用,包括精神疾病、先天性心脏病和癌症。然而,很难区分与疾病相关的同义突变与良性突变。对所有已识别的同义突变的进行实验表征是不实际的,通常是耗时、昂贵和费力的。

背景介绍

已经有几个生物信息学平台和工具来同义突变进行优先排序。这些工具可分为两类,即用于同义突变致病性预测的专用工具和用于单核苷酸变异致病性预测的通用工具。前者是专门为预测同义突变的功能结果而设计的,包括SilVA、DDIG-SN、regSNPs-splicing、Syntool、TraP,而后者常用的方法可以预测单核苷酸突变的影响,包括但不限于同义突变,方法有CADD、DANN、FATHMM-MKL、PredictSNP2和PhD-SNPg。总的来说,这些工具都是为了实现对同义突变致病情况预测的目的,但是这些工具之间的方法差异越来越大,结合不断涌现的新型实验数据,使得有必要理性地选择最佳的方法,特别是针对基于基因组的精准医疗的潜在影响。

虽然单核苷酸突变致病性计算预测的研究越来越多,然而还没有研究集中在同义突变致病性预测。本文工作提供了一个全面的调查,在预测同义突变的功能影响的大规模计算研究的最新进展。从算法构建、异质性特征提取、性能评价策略、软件效用等方面,对迄今已发表的10种计算方法(包括5种特定的同义突变工具和5种通用的单核苷酸突变工具)进行了批判性的评价、系统的基准测试和深入的讨论。进行了大量的独立测试,客观地评估了基于两个新构建的独立测试数据集的计算方法的预测性能。对现有的有害同义突变预测方法进行性能评价,发现TraP、SilVA和FATHMM-MKL三种方法总体性能最好,互相的相关性较低。

本工作提出了一个集成模型,通过整合TraP、SilVA和FATHMM-MKL这三种方法的输出来预测有害同义突变Prediction of Deleterious Synonymous Mutation (PrDSM)。在两个基准数据集上的实验表明,本工作的集成预测器PrDSM可以超越所有单独的工具。本工作将有助于高效和准确的同义突变致病性预测计算方法的未来发展,并且提出的集成模型将补充现有的方法。

方法介绍

1. 有害预测方法

比较了10种有害预测方法(Table 1),包括5种同义突变预测SilVA 、DDIG-SN、regSNPssplicing (regSNP)、TraP 和Syntool。5种评估单核苷酸突变的致病性的工具CADD、DANN、FATHMM-MKL、PredictSNP2 和PhD-SNPg。用于区分致病性或良性突变的cut-off来自于最初的研究和Li et al的研究。本工作通过运行它们的独立程序或公开可用的web服务器,获得了10个方法的每个同义变异的有害得分。

2. 构造独立测试数据集

为了评估这10种方法的性能,构建独立的测试数据集。回顾了10种方法的文章或网站,发现绝大多数算法都是在HGMD、ClinVar和1000 Genome Project。

(1)有害同义突变(阳性数据集)来自HGMD Professional version 2018.3。对于阳性数据集,删除了2017年之前HGMD中出现的1404个突变,只使用了标记为“DM”(引发疾病的突变)或“DM?”(可能的致病突变)。

(2)假定为良性的同义突变(阴性数据集)从VariSNP数据库version 2017-02-16检索。对于阴性数据集,本工作排除了 VariSNP database version 2016-06-09 和1000 Genomes database之间的315 336个重叠突变。

此外,删除任何与阳性突变重叠的假定良性。根据上述标准,获得了2603个同义突变,其中254个为有害同义突变(阳性数据集),2349个为推定良性同义突变(阴性数据集)。将这些数据集定义为“完整数据集”。为了避免有偏差的性能评估,构建了“完整数据集”的一个完全平衡的子集,在这个子集中,对于每个阳性突变,都选择一个假定为良性的突变,该突变尽可能靠近基因组中的阳性突变。总的来说,平衡的数据集包括494个同义突变,其中一半来自阳性数据集,另一半来自阴性数据集,将这些基准数据集称为“close-by数据集”

3. 表现评估

正如在许多文章中提到的,有几种方法用于评估预测方法的性能,包括交叉验证,如n-fold、leave-family-out和leave- one-out。此外,独立测试和案例研究也是绝大多数人的评估选择。在这里,基于两个独立的测试数据集,使用包括灵敏度sensitivity、特异性specificity、准确性accuracy、精密度precision、马修斯相关系数Mathews correlation coefficien(MCC)和F1评分F1-score在内的6个指标来评估10种算法的性能。

此外,还通过受试者工作特征(ROC)曲线和ROC曲线下面积(AUC)评估了有害同义突变预测的总体表现。当预测器的AUC值大于其他ROC曲线的面积时,预测器被认为是更好的预测器。

4. 整体预测设计

在这项工作中,为了提高有害和良性同义突变之间的可区分性,开发了一个名为PrDSM的集成预测器,该预测器集成了TraP、SilVA和FATHMM-MKL方法的结果。选择这三个方法的原因:(1)这三种方法表现出更好的性能,与其他方法的比较,对两个基准数据集预测AUC>0.7。(2)三种方法之间的相关性较低,多样性较好。

构建集成预测器最关键的一步是如何整合明显不同输出的三种算法。为了整合这三种预测方法,(1)预先计算了从CADD中提取的全基因组同义突变的三种算法的预测得分。(2)对每个算法中所有同义突变的预测得分进行了排序。(3)计算每个工具中每个同义突变的百分位值,目的是使所有组合方法的不同标准一致。例如,假设有n个同义突变,在上述三个处理步骤之后,得分最低的突变排在第一位。排名最高的同义突变的最终新得分或百分位值为1/n。(4)使用下面算法计算了三种联合方法对每个同义突变的百分位平均值,即“PrDSM”评分:

一致得分的范围从0到1,最高分表示最有害的同义变异,最低分表示最无害的同义变异。当准确性、敏感性和特异性之和最大时,设置“PrDSM”评分的cut-off 。

结果解析
01
有害同义突变预测方法综述

Table 1展示的是10个方法使用的预测模型、使用的输入特征、性能评估策略、破坏性评分的阈值、用于训练这些工具和软件/web服务器的训练数据可用性。将这10种方法分为两类。与一般方法相比,同义突变特异性方法大多基于随机森林,这是生信中广泛使用的机器学习方法。基于机器学习的方法通常需要计算模型训练的序列和/或基于结构的特征。在上述的有害同义突变预测方法中,使用了各种各样的特征。Table 1显示了最常用的特征是splicing和conservation特征。所以推测这两个特征在有害同义突变的鉴定中发挥了重要作用。对于一般方法,conservation特征仍然是最常用的。此外,表观遗传修饰信息,如组蛋白ChIP-Seq和TFBS PeakSeq也用于构建通用模型。这10个工具中的大多数都可以作为web服务器使用。一些工具,如SilVA、Syntool和DANN提供代码资源。

02
基于独立测试数据集的不同预测方法的评估

在本工作中,使用独立测试数据集来对10个工具进行性能比较。在本研究中构建的独立测试数据集,使用HGMD和VariSNP数据库的早期版本中删除同义突变,如此最小化本工作的独立测试数据集和比较工具的训练数据集之间的重叠。将独立测试数据集的同义突变提交到Table 1中工具,获得相应的预测结果。Figure 2A展示10种方法预测的ROC曲线。特定工具如SilVA、ddigi – sn、regSNP和TraP在完整数据集上实现了更好的性能(SilVA的AUC值为0.770;ddigi – sn的AUC值为0.763;regSNP的AUC值为0.747;TraP的AUC值为0.740),而一般工具(FATHMM-MKL除外)的ROC性能较差。

还基于敏感性,特异性,精度,准确性,MCC和F1评分评估了这些工具的性能。Table 2所示,10个工具在完整数据集上的MCC值范围在0.051到0.518之间。TraP、SilVA和DDIG-SN是top-ranking工具;F1得分在2.31%到50.5%之间,top-ranking是TraP、SilVA和CADD。TraP和SilVA在MCC、F1得分和accuracy方面表现最好。对于其他的测量方法,发现10种方法的灵敏度一般<50%(排除regSNP、Syntool和FATHMMMKL),10种方法的特异性一般>80%(排除regSNP、Syntool和FATHMM-MKL),10种方法的精密度一般<30%(排除DANN、PredictSNP2, ddign – sn, SilVA和TraP)。一般来说,同义突变特异的方法取得了比一般方法更好的性能。推测同义突变特异工具表现最佳的一个原因是,这些工具的训练数据和大多数特征(如splicing)都是同义突变的特征。

除了预测性能外,在将预测方法应用于从测序研究中生成的大规模同义突变数据时,缺失值也是一个问题。一些方法倾向于将预测限制在注释良好的蛋白质或转录本上,这可能会提高对非缺失值(non-missing scores)的预测准确性,但它们存在较高的缺失值率。基于用于测试的完整数据集,发现其中一种方法(Syntool)显示出相对较高的缺失值率(22.67%)。另一种方法(regSNP)对本工作的数据集产生了1172个缺失的预测,这可能是因为它在预测突变对mRNA剪接和蛋白质结构信息的影响方面存在局限性。与一般方法相比,同义突变特异的方法有更多的缺失值。本工作决定在确定比较的方法的总体排名不受影响之后,在测试数据集中保留这些突变。

综合Table 2和Figure 2A的评价结果,可以得出以下结论。(1)基于完整的基准数据集,确定SilVA的方法取得了最好的性能。尽管SilVA拥有这样的优势,但它并不能预测Y染色体的基因突变。考虑到这些结果,SilVA仍然是同义突变的杰出工具。建议用户使用SilVA来预测同义突变的致病性,但不包括位于Y染色体。(2)FATHMM-MKL、DDIG-SN、regSNP、TraP和CADD也提供了更好的性能表现。FATHMM-MKL、TraP和CADD提供本地包,而其他两种方法只能在线使用。如果用户有大量的数据,FATHMM-MKL、TraP和CADD是很好的选择。如果不是,DDIG-SN也是一个不错的选择。(3)Syntool展现了较差的性能。虽然该方法是专门为同义突变设计的,但它为同义突变提供了基于区域的不耐受评分。因此,同一区域内的同义突变具有相同的预测得分。这个特性可以解释Syntool表现最差的原因。

基于close-by基准数据集,Table 3表示七个度量的预测结果和每个方法的缺失值。与完整数据集的结果相比,这些方法之间没有太大的差异。Table 2B所示10种方法的ROC曲线。发现SilVA (AUC = 0.773)和FATHMM-MKL (AUC = 0.767)表现最好,随后的四种方法(DDIG-SN = 0.758、TraP = 0.735、 regSNP = 0.733和 CADD = 0.714)的 AUCs >0.7。

先前的研究报道,许多与HGMD中所谓的疾病相关的突变是错误的研究发现或分类,这可能导致相对较差的敏感性。然后对取自HGMD的DM和DM?进行分析,目的是确定突变的临床意义与预测结果之间的相关性。在每个工具正确预测的同时,如果标记为“DM”的有害同义突变的数量高于“DM?”,对于错误预测的突变却有相反的结果,这可能表明,预测工具的低敏感性与从中HGMD提取的突变的临床意义有关。为了验证这一假设,计算了标记为“DM”和“DM?”的同义突变的数量,是通过四种AUC >0.7、灵敏度>30%并且缺失值率<20%的工具(FATHMM-MKL、CADD、TraP和SilVA)。结果显示,标记为“DM”的突变数量大于“DM?”,其中FATHMM-MKL、CADD、TraP和SilVA工具分别正确预测(Fisher检验,P-value = 0.002882、0.0005421、2.459e-07和4.727e-08)。对于错误的预测,标记为“DM?”的突变数量大于“DM”在FATHMM-MKL、 CADD、 TraP和SilVA工具(P-value = 3.276e-05, 0.001053, 0.000251和0.000444)。结果表明,预测工具的同义突变的低敏感性可能是由于HGMD中对标记为“DM?”的突变有大量预测错误。

接下来测试了许多评估方法的低敏感性是否与从HGMD中提取的同义突变的疾病类型有关。为了验证这些突变中有多少与孟德尔疾病、多因子疾病或癌症相关,手动查询疾病相关数据库,以找出HGMD中每个同义突变与哪种疾病类型相关。结果表明,与采用FATHMM-MKL、CADD、TraP和SilVA工具对多因素疾病和癌症的DMs进行预测相比,孟德尔疾病的DMs通常更容易被正确预测。这可能是由于孟德尔疾病的遗传模型相对简单。但是对于DM?,发现与来自孟德尔疾病和癌症的突变相比,多因子疾病的同义突变通常更容易被正确地归类为有害突变。

03
预测方法的相关性

为了评估两种计算方法预测结果的相关性,计算了基于full和close-by数据集的Spearman相关系数。对于完整的数据集(Figure 3A),观察到DANN、CADD、PredictSNP2、FATHMM-MKL和PhD-SNPg 几乎都有很高至中度的相关性。CADD与FATHMM-MKL的相关性最高(R = 0.7)。其余方法相关性较低。对于close-by数据集,观察到DANN、CADD、PredictSNP2、FATHMM-MKL和PhD-SNPg之间均呈高度至中度相关。与full数据集的相关性相比,基于close-by数据集的其余方法相关性较低至中度(Figure 3B)。为这两个基准数据集获得了相似的模式。

为了进一步研究这些计算方法之间的相关性,分析了在完整的基准数据集中10种方法之间的一致性程度。Figure 4A 和Table 4显示10种方法的一致性结果。发现良性突变的一致性为27.50%,有害同义突变的一致性为0%。还计算了“假一致性”,其中10个方法提供了与VariSNP和HGMD突变的真实标签相反的一致性断言。对于HGMD中的有害突变,6.69%的突变被全部预测为良性,相反,VariSNP中没有良性突变被10种方法预测为有害突变。为了确保上述结果不受不平衡的全数据集的影响,还分析了10种方法在close-by数据集的一致性(Figure 4A 和Table 4)。Table 4所示,28.34%的良性突变和0%的有害突变在10个预测结果中有一致性。此外,6.88%的有害突变和0%的良性突变在10个预测结果中出现假一致性。基于close-by数据集的结果表明,full数据集的不平衡对10种工具的一致性贡献不大。

基于对full和close-by数据集的结果,发现同义预测方法通常显示出低一致性,可能是由于评估方法之间普遍的低敏感性。然后计算了四种工具(FATHMM-MKL、CADD、TraP和SilVA)的一致性水平。结果显示67.82%的良性突变和28.35%的有害突变符合四种预测结果。此外,32.28%的有害突变和0%的良性突变在4个预测结果之间存在假一致性(Table 4)。结果表明,预测工具的低敏感性对一致性计算有很大贡献。

 

04
预测方法的附加分析

发现基于full和close-by数据集的大多数工具的预测是功能中性的变异。为了验证工具的偏倚预测不是不平衡的full数据集的原因,通过生成另外五个具有相同致病中性突变比率的“close-by”数据集来扩展工具评估。对另外5个“close-by”数据集进行了与第一个“close-by”数据集相同的操作,但在基因组上第二个nearest数据集,第三个nearest数据集…第六个nearest数据集(分别命名为close-by1、close-by2、 close-by3、closeby4 和close-by5)。根据这些额外的数据集计算灵敏度、特异性、精密度、准确度、F1、MCC和AUC。这5个数据集上的结果与close-by数据集上的结果类似。提供了一个称为BIAS(−1≤BIAS≤1)的标准,即特异性和敏感性[(特异性敏感性)/最大值(特异性、敏感性)]的差异的归一化值。如果BIAS>0.25,预测被认为偏向于功能性中性的变异,这表明大多数预测为中性的变异实际上是有害的同义变异。如果BIAS≤- 0.25,则认为预测偏向于功能性有害突变,这意味着许多实际上是良性的突变被预测为有害的同义突变。比较了7个独立数据集(full、close-by和额外的close-by1-5数据集)之间的BIAS(Table 2,3)。使用这个参数,性能最好的方法是FATHMMMKL。相比之下,我们发现了七种工具(DANN、 CADD、PhD-SNPg、PredictSNP2、DDIG-SN、SilVA 和TraP)的BIASs>0.25,regSNP和Syntool对所有7个独立数据集的BIASs≤0.25,这表明对扩展的5个邻近数据集的预测仍然有偏倚。基于上述实验,证明了工具的预测结果对中性同义突变的偏倚并不是由于整个数据集的不平衡造成的。为了进一步扩展工具评估,还利用了SilVA(4个有害和10个良性同义突变)的测试数据集。无论如何,仍然可以发现同义突变特异性方法的性能高于一般方法的单核苷酸突变。

为了进一步研究预测结果对阴性样本的偏倚是否与方法本身有关,查阅了文献以获得原始的报告结果。只有DDIG-SN、PredictSNP2和PhD-SNPg这三种工具提供了敏感性和特异性的结果。PredictSNP2和PhD-SNPg的敏感性和特异性值非常接近,DDIG-SN的BIAS>0.25。总之,工具的预测结果偏向于良性同义突变,这不是由于整个数据集的不平衡,而是因为方法本身偏向于同义突变的预测。

05
集成方法提高了有害同义突变预测的性能

考虑到full和close-by基准数据集预测性能和任何两种方法之间的相关性,使用包括TraP、SilVA和FATHMM-MKL这三种方法联合构建一个集成预测器,目的是提高有害同义突变预测的性能。对于这三种方法,生成了两种(TraP与SilVA、TraP与FATHMM-MKL、SilVA与 FATHMM-MKL)或三种(TraP、SilVA和FATHMM-MKL)算法的所有可能组合。对于full基准数据集,发现三种算法的组合获得了最好的性能,AUC值为0.786。两种算法(SilVA与FATHMM-MKL和TraP与FATHMM-MKL)结合后的预测结果的AUC分别为0.776和0.780(Figure 5A)。对于close-by数据集,发现三种算法的结合也获得了最好的性能,AUC为0.797,其次是SilVA 与FATHMM-MKL和TraP与FATHMM-MKL的AUCs分别为0.786和0.789(Figure 5B)。为了选择这四种集成工具的最佳组合,还利用了另外5个close-by数据集(close-by1、close-by2、close-by3、close-by4和close-by5)和SilVA的测试数据集来扩展测试实验。结果表明,与其他三种组合工具相比,TraP_SilVA _FATHMM-MKL方法具有较高的灵敏度和AUCs。TraP_SilVA的集成工具在SilVA测试数据集上表现最好。考虑到SilVA测试数据集非常小,结果可能不具有代表性和鲁棒性,所以没有考虑TraP SilVA的组合。

由于splicing 和 conservation的特征在有害同义突变的预测中起着重要作用,所以构建了额外的测试来确定这两个特征是否能改善本工作的共识预测。接下来选择了两种常用的方法,SPANR(基于剪接位点)和GERP++(基于保守特征),并在full、六个close-by数据集和SilVA的测试数据集上评估了它们的性能。发现GERP++比SPANR的预测性能好,但这两种方法的AUC值普遍低于0.7,因此没有将这两个工具集成到集成模型中。综合考虑8个基准数据集的结果,最终选择TraP SilVA FATHMM-MKL组合作为集成预测器,并将其指定为有害同义突变的预测(PrDSM)。

06
基于常染色体和性染色体突变的预测方法的评价

由于性染色体具有不同于常染色体的进化速率,一些方法,如FATHMM-XF,在方法上被限制为位于常染色体上的突变。接下来评估了包括PrDSM在内的11种算法对常染色体和性染色体突变的预测性能。结果发现,集成预测器PrDSM的性能最好,对两类染色体的预测AUCs为0.803和0.809。其他七种算法,CADD、DDIG-SN、regSNP、PhD-SNPg、PredictSNP2、DANN和Syntool在两类染色体的预测性能上有很大的差异,差异在6%到26%之间。发现,与性染色体上的突变相比,预测方法对常染色体突变显示出更好的性能(Figure 6)。综上所述,这些结果突出了大多数预测方法中位于常染色体和性染色体上的突变在预测性能上的差异,表明,为了更好地区分有害同义突变和良性同义突变,应该开发特定于染色体的预测算法,以建立更可靠的计算模型。

07

 

集成预测器的Web服务器

为了方便访问PrDSM,本工作构建了一个用户友好的web服务器。用户可以通过输入以制表符分隔的字符串来查询预测器,或者以制表符分隔的文件或variant call format(VCF)文件上传大量的突变,这些文件至少必须包括染色体、位置、标识符、参考和变异突变等位基因。对于输出页面,用户可以观察集成预测器PrDSM和组成预测器(TraP、SilVA和FATHMM-MKL)生成的预测值和百分位数值。输出文件为VCF文件格式。为了以高效时间的方式获得结果,本工作还对GRCh37/hg19版本的人类基因组的23206778个同义突变进行了预测,用户可以在PrDSM网站“主页”的“下载”部分在线访问这些信息 (http://bioinfo.ahu.edu.cn:8080/PrDSM)

小编总结

本工作提出了一个集成模型(PrDSM),通过整合TraP、SilVA和FATHMM-MKL这三种方法的输出来预测有害同义突变。首先使用独立测试数据集来对10个工具进行性能比较分析,然后评估两种计算方法预测结果的相关性,而后使用扩展的5个邻近数据集进行进一步预测分析。基于以上,整合TraP、SilVA和FATHMM-MKL这三种方法构建模型并进行评估分析。接下来评估了包括PrDSM在内的11种算法对常染色体和性染色体突变的预测性能。最后展示构建的PrDSM的web服务器。

引用:

Cheng N, Li M, Zhao L, et al. Comparison and integration of computational methods for deleterious synonymous mutation prediction. Brief Bioinform. 2020;21(3):970‐981. doi:10.1093/bib/bbz047

文献解读

肿瘤多区域取样的进化分析八:胶质瘤多区域的WGS和WES揭示肿瘤的演化模式

2020-8-28 4:37:50

文献解读

DNA甲基化评估细胞浸润

2020-8-28 4:42:05

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索