综述:基于遗传数据用机器学习预测精神类疾病

整理自 Machine Learning for Genetic Prediction of Psychiatric Disorders: A Systematic Review. Molecular Psychiatry, June 26, 2020 https://doi.org/10.1038/s41380-020-0825-2

目前机器学习方法已被广泛应用于基于基因型数据来预测精神病学表型,本文旨在系统性回顾仅从遗传数据预测精神疾病的机器学习方法,并评估它们的分类性能、误差和实现方法。总体而言,本文从 13 项研究中提取了 77 个有关精神分裂症、双相情感障碍、自闭症以及厌食症的模型。这些模型的性能差异很大 AUC 从 0.48-0.95 不等。这很可能是由于实验过程中引入的一些误差造成的,比如分类器的选择,超参数的选择,以及模型的评价方法等等。在这些文章中,一些关键步骤通常描述的不够清楚。除了研究内和研究间的样本重叠外,不同研究间的比较还受到预测因子、结果和性能指标不同的限制。

文献检索

根据 Medline via Ovid、PsycInfo、Scopus 和 web of science 数据库检索 2019 年 9 月 10 日之前的机器学习,精神病学以及遗传学有关文献,共确定了 1241 篇文章。在合并和删除重复后,共有 652 项研究纳入评估。其中,对 63 篇全文数据进行了评估。最终总共选择了 13 项研究纳入综述,共包含了 77 个不同的机器学习模型。

纳入的研究

这些研究对精神分裂症、双相情感障碍、自闭症和厌食症采用了多种机器学习方法进行研究。SNP 是最常见的遗传数据来源。其中一项研究纳入了拷贝数变异 (CNVs) 和 PRS 的数据,另有两项研究使用了外显子组测序数据。数据集通常由公开的 GWAS 数据组成;至少 7 个研究中可能存在样本重叠。

机器学习方法

这些研究中使用最多的是支持向量机和神经网络,其次是随机森林和 boosting 方法。对于支持向量机中的核函数,有 7 个模型使用了线性核,6 个模型使用了 rdf 核,6 个模型为具体说明用到的核函数。关于神经网络,最常用的是多层感知器 (6个模型),5 个模型使用了 rbf 网络,9 个模型使用了受限玻尔兹曼机 (RBMs),其中线性网络、卷积神经网络 (CNN) 和嵌入层各使用一次。boost 模型中的弱分类器主要是决策树,除了一项研究在 AdaBoost 中将特征选择与径向基函数支持向量机相结合。带惩罚项的线性回归模型也被广泛使用,有 4 个模型用到了 LASSO,2 个模型使用了岭回归。关于这些模型所使用的编程语言,14 % 的模型用了 R,21% 为 Python,36 % 为 JAVA,14% 为 Matlab,其中 Matlab 和 Python 是神经网络模型的首选。

模型性能评价

超过一半的模型使用 AUC 评估模型,除此以外还使用多种性能指标评价模型,例如 Accuracy,Sencitivity,Precision,F1-score 等等。

79% 的模型使用了内部验证。其中大多数使用了 k 折交叉验证,这是一种重采样方法,就是将数据集等比例划分成 k 份,以其中的一份作为测试数据,其他的 k-1份数据作为训练数据。最常用的为十折交叉验证。也有的 (21%) 研究将原始数据集根据不同比例划分为训练集和测试集。其中有一项研究训练集和测试集都为全部的原始数据集。仅有一小部分 (26%) 研究使用了外部验证,但另外有一项研究虽然使用了外部验证但其训练集和验证集中有部分样本重叠。

模型性能因统计方法的选择、样本量和研究中预测因子的数量而异。精神分裂症模型的性能差异极大 (0.541–0.95 AUC),其中使用 XGBoost 基于外显子数据的模型 AUC 最高,为 0.95。在这项研究中,作者使用了每个基因的突变数为特征。另外一个高 AUC (0.905 AUC) 的研究则利用了多种精神分裂症相关的 PRS。所有其他精神分裂症模型都基于 SNPs 进行建模,但 Wang 等人的研究除外,在该模型基于基因表达数据计算权重使用 RBM 方法用基因型数据进行建模。

双相情感障碍的预测能力始终低于精神分裂症,其 AUC (0.482-0.65) 和随机模型差不多。大多数模型基于基因型数据训练模型,除了一项研究使用了外显子测序数据来训练 CNN 实现了 AUC=0.65。对于自闭症和厌食症的研究较少,分别为 8 个和 3 个模型。

逻辑回归和多基因风险评分

有 3 项研究报告了逻辑回归 (包含 5 个模型) 或多基因风险评分 (12 个模型) 结合机器学习方法。一般是首先基于 GWAS 数据计算 PRS,然后输入到逻辑回归模型进行预测。虽然模型类型之间存在一些差异,但用于比较的研究数量较少。

特征

大多数研究对特征的描述并不清楚 (55% 的模型)。有的研究使用连续变量 PRS,有的用每个基因上的突变数量或基因集中的基因数,大部分研究使用了 SNP 数据,但其中有些研究使用 012 编码,也有些研究使用独热编码等等。

除此之外有 64% 的模型使用了来自外部数据集的 GWAS 汇总统计数据,用于特征选择、加权或组合。

大多数 (73%) 建模过程包含了特征选择步骤,包括基于阈值过滤或嵌入法。后者涉及 LASSO 回归,决策树以及改进的 AdaBoost 。基于阈值过滤的方法则主要用到了内部或外部的 GWAS 数据。嵌入法,即先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。

样本量

在使用单个数据集的情况下,总样本量通常较低,但如果整合公共数据库,总样本量则较高 (中位数 3486,范围为 40-11853)。样本中的患者数量也遵循类似的模式 (中位数 1341,范围为 20-5554),尽量保证样本均衡。

超参数的选择

对于超参数,大多数研究也并未报道,或直接使用默认参数。只有 19% 的模型明确报道了使用不同的超参数调整模型。

讨论

这些研究都较少描述其具体建模步骤,在建模过程和验证中也都表现出较高的风险误差。这也导致了不同模型之间的性能差异较大 AUC 在 0.482-0.95 不等。

与误差风险相关的问题通常基于临床预测模型、机器学习方法和遗传关联研究之间在方法论上的区别。例如,遗传学研究通常采用病例对照设计。此类研究对于确定罕见病的遗传风险因素极为有用,但通常不适用于预测模型,因为绝对风险无法估计;相反,病例队列、嵌套病例对照或前瞻性队列实验设计是首选。病例队列和嵌套病例对照设计涉及从现有队列中取样,如果分析中考虑了对照样本的抽样比例,则可用于预测模型。为了在病例对照研究中对整个人群进行预测,阳性和阴性预测值应根据人群中的疾病预测值以及样本中病例和对照的比例进行校正。类似地,GWAS 的结果也常应用于选择遗传预测模型的预测因子。然而,它们在预测建模中的应用通常并非尽如人意,因为当与其他变量同时考虑时,特征的效应值可能不同。

另一方面,缺乏建立机器学习方法的适当流程也是高误差风险的常见原因。虽然有一些研究人员遵循标准模型验证流程;然而,许多研究并不遵循仅使用训练集或训练折中的数据进行调参和模型选择的方法,这就导致了训练集和测试集的信息泄露,也就会对预测性能造成明显的偏差。

超参数优化是建立机器学习模型的一个重要步骤,因为它决定了它们如何在偏差-方差之间进行权衡并基于数据进行训练。但在现阶段的研究中,这个步骤经常没有被报道或仅仅用到少量的人工实验。我们应该系统性地检索超参数以保证模型不会过拟合或欠拟合。有研究表明随机搜索比网格搜索更为有效。尽管网格搜索也被研究人员推荐用于支持向量机,在网格搜索中,一般是直接搜索调整两个以上参数,通常是先进行「粗略」搜索,然后对再更精细的网格值进行进一步的探索。这样搜索的对发生率较小的表型尤为重要,适当的超参数可以降低模型过拟合。

一些研究使用了拆分样本的方法,但应避免使用重采样方法,如 bootstap 方法或 k 折交叉验证。因为如果重复这个步骤,估计的预测精度就会变得过于乐观,例如先用交叉验证进行超参数调整,再用其进行验证。其实我们可以使用一种更复杂的交叉验证方法,比如嵌套交叉验证 (nested cross validation) 。嵌套交叉验证选择算法即是,外循环通过 k 折等进行参数优化,内循环使用交叉验证,从而对特定数据集进行模型选择,但是目前没有任何研究中用到该方法。

人群结构也是一个误差来源。遗传血统有可能使关联和预测产生误差。监督机器学习方法已被证明在检测祖先方面特别敏感。这里很少有研究对人群分层进行可视化或排除不同人种的样本,也没有研究基于此对模型进行调整,即使以前在相同数据集上的关联分析研究已将人群分层作为协变量进行校正。这些研究中引入的偏差程度尚不清楚:证据主要涉及使用机器学习方法法预测人类群体,或从 PRS 中观察复杂性状预测的偏差。人口分层对预测的潜在影响显而易见,目前也提出了多种方法来改善这个因素,包括对随机森林方法的修改;考虑主成分 PC 变量;以及在建模之前根据主成分对 SNP 进行校正,但这些方法是否足以降低非线性机器学习预测中人口分层的影响还未得到证实。

机器学习预测模型的一般报告指南尚待制定,虽然已有一些研究提出了对机器学习进行评估或报告的建议。我们鼓励研究人员报道其研究过程、样本、预测因子、缺失率、超参数和潜在信息泄漏的处理等等信息。最后,我们建议可将 PRS 方法作为基线与机器学习方法进行比较。近年来,机器学习方法提高预测能力的潜力受到人们青睐,但若这些模型都不遵循合适的建立,验证和性能评估标准,那么这样的结果也不会让人信服。

文献解读

6-基因signature预测头颈部鳞状细胞癌患者的生存

2020-8-16 12:23:05

文献解读

针对肺癌肿瘤微环境的病理图像智能识别

2020-8-16 21:30:07

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索