GSEA分析:高级的富集分析

一眨眼就来到了十一假期第七天,为了避免节后的假期综合征,非常有必要做一个提前适应,才能更快的完成学习或者工作的角色切换。本期看图说话跟大家分享GSEA分析的结果解读、应用场景及案例解析,希望能带你找回十一假期前的味道。

原理及目的

基因集富集分析(GeneSet Enrichment Analysis, GSEA)一种对基因进行富集分析的方法,即检验已知功能的基因集(即gene set,可以是从GO/KEGG/hallmark/MsigDB中拎出的某一特定类别的基因集合,也可以是自定义的功能基因集合),在一个依据与表型的相关度进行排序的基因列表(即两组样品的表达谱数据,依据基因在两种表型中的表达量的高低进行排序,因未对基因进行显著差异的筛选,因而可以将全部基因与不同表型的相关性均考虑进去)中是随机排列还是主要集中在列表的顶部或底部。若研究的已知功能基因集是非随机分布的,则说明该已知功能基因集与表型相关,根据其基因的集中情况,则可以推断出该已知的功能具体和哪种表型更为接近

应用场景

下面我们以一篇文章案例解析如何利用GSEA进行数据挖掘。这是一篇利用生信分析进行胃癌进展过程关键基因筛选的文章。文章作者前期进行差异表达分析发现仅在肿瘤和正常组织比较组中鉴定到161个DEGs,正常组织与原发性胃癌(PGC)DEGs较少、PGC与进展期胃癌(AGC)组没有鉴定到DEGs,因此作者仅对肿瘤和正常组织进行了GO和KEGG富集分析,但是并没有找到显著富集的通路。后续作者进一步对三组数据进行了GSEA分析。

GSEA分析结果发现与正常组织相比,肿瘤组织中富集了G2M检查点、Myc靶点V2、凋亡等5组基因。值得关注的是,PGC组与AGC组在差异表达筛选时无显著差异基因,但在GSEA分析中有8组基因显著差异富集,包括通过NFKB的TNFA信号、KRAS信号上调等肿瘤进展过程相关的基因。

该结果提示我们,GSEA分析可以将那些GO/KEGG富集分信息中容易遗漏掉的差异表达不显著却有着重要生物学意义的基因包含在内。在进行数据挖掘时,将GSEA分析与差异分析和常规GO/KEGG富集分析进行组合,可以挖掘出更多的具有生物学意义的信息。

结果解读

讲完GSEA分析的应用场景,下面我们就以G2M检验点富集结果图为例说明GSEA分析结果该如何解读。该图可分为3个部分:(1)上方绿色的EnrichmentScore折线图,横坐标为排序好的基因列表(即肿瘤组织和正常组织基因表达量矩阵表)。纵坐标是富集得分(Enrichment Score,ES).ES反映G2M功能相关基因集成员(HALLMARK_G2M_CHECKPOINT)在样品的基因表达排序列表的富集程度。折线图中的峰值就是这个基因集的ES值,ES值越高,说明样品在该通路中有富集。(2)中间部分每一条竖线代表功能基因集中的一个基因,及其在样本表型关联排序后的背景基因列表中的位置。存在显著富集的表型则与该已知的功能更为相关。(3)最下面为所有基因的rank值分布及信噪比,用以展示已知功能的基因在不同分组中的表达量情况,其中红色代表在“T”组(即肿瘤组)中高表达。从该图中可以看出,”HALLMARK_G2M_CHECKPOINT”这个基因集是在“T”组(即肿瘤组)高表达的。

好了,今天的分享就到这里!GSEA分析原理及应用,你学会了吗?赶紧实战起来吧!
文献解读

【热点追踪】细胞的花式死法之细胞副凋亡

2020-10-5 22:38:09

文献解读

文献解读:综合基因分析结合转录和蛋白质水平上的实验分析

2020-10-7 21:27:12

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索