IncRNA在肿瘤发生中的深度分析

今天跟大家分享的是2020年3月发表在Communications Biology(IF=4.165)杂志上的一篇文章Cancer LncRNA Census reveals evidence for deep functional conservation of long noncoding RNAs in tumorigenesis。文章中作者通过癌症LncRNA普查揭示证据,证明长非编码RNA在肿瘤发生中的深层功能保守性。

Cancer LncRNA Census reveals evidence for deep functional conservation of long noncoding RNAs in tumorigenesis
癌症LncRNA普查揭示证据,证明长非编码RNA在肿瘤发生中的深层功能保守性

一. 研究背景

 

        肿瘤发生是由一系列促进癌症表型并因此经历阳性选择的基因突变驱动的。通过肿瘤基因组测序,可以系统地发现此类驱动基因突变及其功能发生改变的基因。通过收集每种癌症类型的全部此类基因,应该有可能全面了解潜在的过程和途径,从而制定有效的靶向治疗方案策略。近年来,随着各种新型非编码RNA和调控功能的发现,涉及肿瘤发生的遗传元件的种类不断增长。这些包括长的非编码RNA(lncRNA),长链非编码RNA(lncRNA)是癌症基因组学研究的一个日益增长的焦点。

        有争议的是,突变的lncRNAs是否可以驱动肿瘤发生,以及这些功能在进化过程中是否可以保守。在此,作为ICGC / TCGA全基因组全癌基因分析(PCAWG)联盟的一部分,作者介绍了癌症LncRNA普查(CLC),这是122种GENCODE数据库 lncRNA的汇编,在癌症表型中具有因果关系。与现有数据库相反,CLC需要强大的功能或遗传证据。CLC基因丰富于从体细胞突变预测的驱动基因中,并显示出特征性的基因组特征。作者在8个lncRNA的直向同源物中鉴定了10个引起肿瘤的突变,包括LINC-PINT和NEAT1,但没有MALAT1。因此,CLC代表了高置信度癌症lncRNA的数据集。诱变图谱是鉴定lncRNA在肿瘤发生中深层保守作用的新方法

MALAT1:MALAT1在多种癌症类型中过表达,其敲低不仅在小鼠异种移植测定中有效地减少了增殖,而且还降低了体内转移。MALAT1在人肿瘤中的突变率较高,尽管尚未确定这些突变是否驱动肿瘤发生。

二. 分析流程

 

三. 结果解读

1. 癌症相关lncRNA的定义

        作为ICGC / TCGA全基因组全癌基因网络(PCAWG)内部驱动程序和功能解释小(PCAWG-2-5-9-14)最近确定驱动程序lncRNA的工作的一部分,作者发现需要与癌症相关的lncRNA基因的高浓度参考集,因此作者将其称为癌症lncRNA。作者在这里提出了癌症LncRNA普查(CLC)的第一版。

        从文献中使用确定的一致标准来鉴定癌症lncRNA,它们是在癌症进展或表型中起作用的直接实验(体外或体内)或遗传学(体细胞或种系)证据。单单表达的改变并不被认为是充分的证据,对于每种癌症lncRNA,都会收集一种或多种相关的癌症类型。

        CLC的第一版包含122个lncRNA基因,但是,其中8个被GENCODE注释为假基因而不是lncRNA。其余的114个CLC基因相当于在GENCODE本版本(指v24,后面省略)中注释的15941个lncRNA基因位点总数的0.72%(图1)。为了进行比较,癌症基因普查(CGC)列出了561个或2.8%的蛋白质编码基因。此后,剩下的全部15,827个lncRNA基因座称为非CLC(图1)。

        其中,行代表122种CLC基因,列代表29种癌症类型。基因名称旁边的星号根据基因或启动子证据被PCAWG预测为驱动器。蓝色细胞表示给定的lncRNA参与该癌症类型的证据。左列表示功能分类:抑癌剂(TSG),癌基因(OG)或两者(OG / TSG)。在上方和右侧,条形图指示每列/每行的总数。饼图显示了CLC在GENCODE本版本lncRNA中所占的比例。请注意,GENCODE将8个CLC基因归类为“假基因”。“ nonCLC”是指所有其他带有GENCODE注释的lncRNA,它们在比较分析中用作背景。

        结论是,CLC包含333种独特的lncRNA-癌症类型关系。在122个基因中,有77个(63.1%)具有致癌基因的功能,有35个(28.7%)具有抑癌作用,有10个(8.2%)具有两种活性的证据,具体取决于肿瘤类型,且目前尚不清楚致癌基因和抑癌基因频率的差异是否有生物学解释,或者仅仅是确定偏倚的结果。尽管基因在特定癌症类型中显示出致癌特性,但未来的出版物可能表明该基因在不同组织中起抑癌作用,例如:CLC中研究最多的lncRNA(图1顶部)具有双重功能。HOTAIR,MALAT1,MEG3和H19(记录的癌症类型≥16种)是最有效的lncRNA。

 

 

 

图1. 癌症LncRNA普查概述
 

 

 

2. CLC和其他数据库        

 

        目前有许多相关的lncRNA数据库可用:Lnc2Cancer数据库(n = 654),LncRNADisease数据库(n = 121)和lncRNAdb(n = 191)。CLC涵盖了Lnc2Cancer的17%和LncRNADisease的31%,但是这些资源都没有包含此处介绍的基因的完整列表(图2a)。重要的是要注意,其他数据库也包括少数非GENCODE基因,范围从40到316(即占比33%和48%)(图2a)。此外,根据补充资料作者仅使用GENCODE注释的基因就交叉了四个数据库。显然,CLC与其他三个数据库的重叠最大,这表明它具有最大的特异性。

        其中,图2a显示的是每个交叉点包含的独特人类lncRNA的总数。数据库分为属于本版本GENCODE注释的基因和其他基因。

补充说明:在本图中,对于LncRNADisease,数字仅指与癌症相关的基因

 

 

图2a. 比例维恩图显示CLC集和三个所示数据库之间的重叠
 

        之后,作者试图使用最新的无偏增值筛查数据来独立比较癌症lncRNA数据库。仅使用GENCODE注释的基因,CLC是总体上具有独立鉴定的增殖lncRNA的最接近部分的资源,尽管数据的稀疏性质意味着该结论是没有确定性(图2b)。最后,作者从最近的TCGA出版物中下载并收集了8416种经过生物信息学预测的本版本GENCODE lncRNA,但未发现与CLC有重叠。

其中,该百分比出现在两次CRISPR / Cas-9癌症筛查的癌症lncRNA候选最终列表中(Liu等人9和Zhu等人47)。N代表在两个CRISPR / Cas-9筛选中的每个筛选中测试的每个数据库中GENCODE v24 lncRNA的数量。每个栏中显示了数据库和筛选之间重叠的基因名称。

 

 

 

图2b. 每个数据库的GENCODE lncRNA的百分比
 

3. 基准lncRNA驱动程序预测方法的CLC

        CLC的主要动机之一是开发一种高置信度的功能集,用于基准测试和比较识别驱动程序lncRNA的方法。

        首先,作者使用CLC来检查lncRNA驱动程序预测因子ExInAtor15在使用PCAWG肿瘤突变数据调用CLC基因时的性能。此处总共测试了2687个GENCODE lncRNA,其中82个(3.1%)属于CLC。在图3a中显示了针对选定癌症的标准误发现率(q值)临界值为0.1的几种癌症的驱动程序预测。该面板显示了CLC定义的精度(y轴)与按q值(x轴)排名的预测驱动基因的函数。

其中,黑色线表示基线,是CLC基因在整个测试基因列表中的百分比。彩色点表示在q值截止值为0.1时预测的候选数。图例中的“ n”显示每种癌症类型的CLC数量和候选总数。

        作者观察到跨癌症人群的表现相当不同。这可能反映出内在生物学差异和队列规模差异的组合,在所示数据集之间差异很大。对于合并的全癌数据集,ExInAtor预测了其前十名候选基因中的三个CLC基因(q值<0.1),该比率远超过背景预期(基线,CLC中所有lncRNA的比例)。对于其他癌症类型,观察到类似的富集。这些结果既支持ExInAtor的预测价值,又支持CLC在评估lncRNA驱动程序预测因子方面的实用性。

 

 

 

 

图3a. 使用PCAWG全基因组肿瘤在0.1的q值截止时对ExInAtor驱动程序lncRNA预测进行CLC基准测试
 

        最后,作者评估了精度(即积极的预测值),所有癌症和所有预测方法中PCAWG lncRNA和蛋白质编码驱动器预测的分析。使用0.1的q值截止值,作者发现在所有癌症类型和方法中,共有8个(8.5%)的lncRNA预测属于CLC(图3b),而共有139个(23.1%)的蛋白质编码预测属于CGC(图3c)。就敏感性而言,预计分别有9.8%和25.1%的CLC和CGC基因是候选基因。尽管CLC基因的检出率比CGC基因的检出率低,但两者的敏感性均显著超过了非CLC和nonCGC基因的预测率(分别为p值= 0.007和p值<0.001 Fisher精确检验),再次强调了CLC基因集的有用性(图3c)。

此外在补充实验中,作者对上述三个数据库(lnc2cancer,lncRNAdb和lncRNAdisease)(q值<0.2)重复了相同的分析。所有数据库的精度水平约为40%,除了lncRNAdisease总体精度最低。如图2所示,相交的基因数量少,无法得出明确的结论。但是,CLC在提高特异性的同时,在灵敏度方面显示出与其他数据库类似的性能。这可能是由于CLC严格的,基于功能的包含标准。

 

 

图3b. 通过所有单独的方法以及在PCAWG中开发的驱动程序组合列表,CLC和非CLC基因组之间的驱动程序基因预测率(q值截止值为0.1)
 

 

 

图3c. 通过所有单独的方法以及在PCAWG中开发的驱动程序组合列表,CGC和非CGC基因组之间的驱动程序基因预测率(q值截止值为0.1)
 

4. CLC基因的特征与功能和疾病相关的特征

由于最近作者发现使用少量癌症相关LncRNA(CRL)的证据表明,癌症lncRNA被指示生物学功能的各种基因组和表达特征所区分。作者在这里使用大量潜在的基因特征扩展了这些发现,以寻找将CLC与非CLC lncRNA区别开的那些特征(图4a)。此图中的所有面板均显示特征(点),并通过其CLC /非CLC基因组(y轴)和统计显著性(x轴)之间的对数倍差异(图4b中的几率)绘制;在所有图中,暗绿色和浅绿色虚线分别表示0.05和0.01的显著性阈值。

 

 

 

图4a. 假设特征分析示例
 

首先,作者测试了与预期的癌症相关特征的关联(图4b)。CLC基因的转录起始位点(TSS)在与癌症相关的种系SNPs(癌性SNPs在100 kb TSS)100 kb内的可能性更大,并且更有可能在肿瘤中差异表达或表观遗传沉默(图4b)。有趣的是,作者观察到一种趋势,CLC lncRNA更有可能位于已知的癌蛋白编码基因(CGC 1 kb TSS)的1 kb之内。在寻找CLC基因功能的其他证据时,我们发现与非CLC基因相比,它们与非癌症,与表型相关的种系SNP(非癌症SNP 100 kb TSS)非常接近(图4b)。接近癌症和非癌症SNP支持CLC基因的癌症作用和一般生物学功能。

其中,来自指定来源的癌症和非癌症疾病相关数据:y轴显示通过Fisher精确检验将CLC与非CLC进行比较而获得的优势比的log2;x轴显示同一测试的估计p值。“ CGC 1 kb TSS”是指具有附近已知的CGC癌蛋白编码基因的基因部分。下图将对此进行更详细的探讨。“Non-cancer SNPs”是指与癌症以外的疾病/特征相关的GWAS SNP。

 

 

图4b. 来自指定来源的癌症和非癌症疾病相关数据
 

接下来,作者研究了基因本身的特性。如图4c所示,并且与作者之前的发现一致,CLC基因(基因长度)及其剪接产物(外显子长度)明显长于平均水平。外显子与总长度的比率(外显子含量),总外显子重复序列覆盖率(重复覆盖率)或GC含量均未观察到差异。其中,y轴显示CLC /非CLC平均值的log2倍差异;x轴表示获得的p值。

 

 

图4c. 序列和基因特性
 

从进化保守性推断,CLC基因也倾向于具有更大的功能证据,作者计算了lncRNA外显子和启动子在各种进化深度的碱基保守性(图4d)。在所有测试的指标中,使用平均碱基水平得分或保守元素覆盖率百分比,作者发现CLC基因的外显子比其他lncRNA的保守性高得多(图4d)。观察到启动子区域的保守性相同。其中“Phastc mean”表示平均基础水平PhastCons得分;“元素”表示PhastCons保守元素的覆盖百分比。颜色区分外显子(蓝色)和启动子(紫色)。

 

 

图4d. 进化保守性
 

已知正常组织中高水平的基因表达与lncRNA保守性相关,并被认为是功能性的反映。此外,具有致癌作用的基因倾向于在癌症样品中高表达。作者发现,在整个PCAWG肿瘤(图4e)中,CLC始终比非CLC基因具有更高的稳态表达水平。从与癌症和非癌症SNP的接近性推论得出,癌症和正常样品中的高水平表达反映了CLC基因的重要功能。如图为从PCAWG的RNA-seq表达数据获得的不同癌症组织中lncRNA基因的表达水平。

 

 

 

 

图4e. 肿瘤RNA-seq
 

 

 

 

5. 非编码和蛋白质编码癌症基因的基因组聚类证据

 

        鉴于有关疾病相关的lncRNA和蛋白质编码基因的共定位和共表达的最新证据,作者很好奇这种作用是否对癌症相关的lncRNA和蛋白质编码基因有效,也就是说,CLC基因是否趋向于比偶然更接近CGC基因,以及这是否表现为更共同调节的表达。

        为此,在补充实验中,作者计算了从lncRNA到蛋白质编码基因的TSS-TSS距离,并且发现与非CLC lncRNA相比,CLC基因平均倾向于中等程度地接近所有类型的蛋白质编码基因;由于CLC基因丰富了功能特征(即表达和保守性),因此作者不能排除与蛋白质编码基因接近是功能性lncRNA而不是癌症lncRNA基因的特征的可能性。为了进一步研究这种可能性,作者重复了将非CLC集划分为潜在功能性非CLC基因(PF-non- CLC)的分析和其他非CLC。有趣的是,当比较与任何类型的蛋白质编码基因的距离时,CLC和PF-non-CLC都比其他lncRNA显著更近,是PF-non-CLC基因中最接近的基因。但是,当专门评估与CGC基因的距离时,只有CLC集比其余的lncRNA显著更近,它代表了距离最小的组CLC,PF-非CLC和其他非CLC(图5a)。因此,尽管与蛋白质编码基因的接近似乎是潜在功能性lncRNA的特征,但是与具有类似功能样特性的其他lncRNA相比,CLC基因更接近于癌症基因。其中,LncRNA被分为CLC(n = 122),潜在功能性非CLC基因(PF-non-CLC)(n = 149)和其他非CLC基因(n=15,678)。

 

图5a. lncRNA转录起始位点(TSS)与最近的癌症基因普查(CGC)(蛋白质编码)基因TSS的基因组距离的累积分布
 

已经广泛提出近端lncRNA /蛋白质编码基因对参与顺式调节关系,这在表达相关中得到反映52。接下来,作者问近端CLC-CGC对是否表现出这种行为。一个重要的潜在混杂因素是附近基因对之间的已知正相关,必须对此加以控制。使用11种人类细胞系的基因表达数据,作者观察到每种细胞类型的CLC-CGC基因对之间呈正相关(图5b)。为了控制邻近度对相关性的影响,作者接下来从相同的CGC基因中随机采样了相似数量的具有匹配距离的非CLC lncRNA(TSS-TSS),发现这种相关性丢失了(图5b,“ nonCLC -CGC”)。为了进一步控制由于CGC和CLC基因均参与癌症,并且普遍丰富CLC基因以进行保守和表达这一简单事实而产生的可能的相关性,作者接下来将CLC-CGC对随机构建1000次,再次观察到没有相关性(图5b,“合成的CLC-CGC”)。这些结果共同表明,即使控制基因组距离,从基因组上讲,近端蛋白质编码/非编码基因对的表达相关性也超出了偶然的预期。

其中,箱线图包括两个对照分析(距离匹配的非CLC-CGC对和隐藏的CLC-CGC对)。使用Pearson方法计算每种细胞类型内基因对的相关性,依据为Kolmogorov–Smirnov检验的p值。

 

图5b. 11种人类细胞系中CLC及其最接近的CGC基因之间的基因表达相关性分布
 

这些结果促使作者进一步探索基因组CLC基因相对于其近端蛋白质编码基因的定位及其邻近基因的性质。接下来,作者观察到了CLC基因的基因组组织中出乎意料的差异:按相对于最近的蛋白质编码基因的方向进行分类时,作者发现紧邻蛋白质编码基因的下游且与蛋白质编码基因在同一链上的CLC基因大量富集(“Samestrand”,图5c)。此外,位于蛋白质编码基因上游(不同)方向的CLC基因的可能性大约是其两倍(“ Divergent”,图5c)。

如图,作者根据与最接近的蛋白质编码基因的距离和方向对基因进行分类,这些基因分为三类:距离最接近的蛋白质编码基因不到10 kb的基因,与蛋白质编码基因重叠的基因和基因间的基因(> 10 kb),和来自最接近的蛋白质编码基因,依据为Fisher精确测试的p值。

图5c. lncRNA的基因组分类
 

在上述这些CLC基因中,有20%与CGC基因有差异,而非CLC基因有5%(p值= 0.018,Fisher精确检验)(图5d),还有一些与蛋白质编码基因有差异。补充实验得知,尽管没有被归类为CGC,但也被链接或定义为与癌症有关。如图,数字代表计算百分比的基因数量,依据为Fisher精确检验的p值。

图5d. 与癌症蛋白编码基因(CGC)趋异的CLC(左图)和非CLC(右图)基因的百分比
 

鉴于CLC集的不同蛋白质编码基因之间CGC基因的这种显著富集,作者接下来检查了这些蛋白质编码基因的功能注释。通过检查他们的基因本体论(GO)术语,分子途径和其他与基因功能相关的术语,作者发现这组基因富含GO术语,用于“序列特异性DNA结合”,“ DNA结合”,“管子发育”和“转录转录失调”(图5e),与非CLC集的不同蛋白质编码基因的GO术语相反。相对于蛋白质编码基因,CLC基因似乎是非随机分布的,尤其是它们的CGC子集。

其中,条形图表示–log10(校正后的)p值,并根据“丰富度”进行着色:“丰富度”:包含功能性术语的基因数除以查询的基因总数。条形末尾的数字对应于属于该类别的基因的数目。

图5e. 面板上与CLC基因不同的20种蛋白质编码基因(pc基因)的功能注释
 

6. LncRNA的古老保守癌症作用的证据

在小鼠中,许多研究已采用无偏正向遗传筛选来鉴定抑制或促进肿瘤发生的基因。这些研究使用携带双向聚腺苷酸化位点和强启动子的工程化,随机整合的转座子。在测序的肿瘤DNA中鉴定出的称为“共同插入位点”(CIS)的插入或插入簇被认为是驱动程序突变,从而暗示重叠或邻近的基因位点是癌基因或肿瘤抑制基因。尽管这些研究传统上一直侧重于识别蛋白质编码驱动基因,但原则上它们也可以识别非编码RNA驱动基因。

因此,作者认为将小鼠CIS与人类直系同源区域进行比较可以得出有关人类癌症lncRNA功能的独立证据(图6a)。为了测试这一点,作者还进行了补充实验:作者在小鼠中收集了一套完整的CIS,该CIS由来自7种不同癌症类型的2906个基因座组成,然后将这些位点定位到人类基因组的直系同源区域,从而产生1301个非重叠的人类CIS或hCIS。这些CIS中有6.9%(90)位于蛋白质编码基因的边界之外。

图6a. 人类CLC基因的功能保守性可以通过转座子诱变筛选中小鼠基因组直系区域的CIS的存在来推断
 

将hCISs映射到lncRNA注释,作者发现共有8个CLC基因(6.6%)在其基因跨度内至少有一个插入:DLEU2,GAS5,MONC,NEAT1,PINT,PVT1,SLNCR1,XIST(表1)。DLEU2和MONC这两种情况,每个都有两个独立的hCIS站点。

表1. 基因间CIS人(GRCh38)/小鼠(GRCm38)基因对的列表
 

相反,只有64个(0.4%)非CLC lncRNA包含hCIS(图6b)。其中详细参阅表1,显著性是根据Fisher的精确检验计算得出的。

图6b. 包含人类直系同源插入位点(hCIS)的CLC和非CLC基因的数量
 

一个很好的例子是SLNCR1,如图6c所示,它驱动人黑素瘤细胞的侵袭性,其小鼠直系同源物含有在胰腺癌中发现的CIS。值得注意的是,尽管hCIS是MALAT1研究最广泛的癌症lncRNAs之一,但并未发现它与MATAT1重叠。这与在简介中讨论的在小鼠模型中删除该基因时缺乏强烈的表型作用是一致的。作者检查了在这些CLC基因中插入hCIS实际上可能由附近的,编码蛋白质的癌症基因引起的可能性。然而,除了PVT1 lncRNA之外,这八个CLC基因均不在CGC基因的100 kb之内,而cT-MYC癌基因位于58 kb。该分析表明,CLC基因富含hCIS。然而,仍然存在这样的可能性,即它们的长度更长,并且可能与蛋白质编码基因重叠。

图6c. 与CIS相交的CLC基因的UCSC浏览器屏幕截图(黄色箭头)
 

关于上述问题作者进行了补充实验,作者发现与非CLC基因和基因间空间(既不与lncRNA重叠又不与蛋白质编码的基因重叠的核苷酸)相比,每Mb CLC基因跨度中相交的hCIS数量远远超出预期;与基因间区域相比,非CLC基因还显示出hCIS位点的富集,表明仍有更多的癌lncRNA未被发现。

作者进一步比较了hCIS在蛋白质编码基因,lncRNA基因和其他基因间空间中的富集。与它们占据的基因组空间相比,在编码蛋白质的CGC基因和CLC lncRNA中,hCIS元素都明显富集(图6d)。以每兆碱基跨度的插入率表示,CLC基因比背景基因间DNA和与癌症无关的lncRNA基因更容易被靶向。 这些分析共同表明,CLC基因与导致小鼠癌的基因组基因座同源,其发生率高于随机机会预期的发生率。这些鉴定出的病例以及可能的其他CLC基因显示出自啮齿动物以来已保存了数千万年的癌症功能分歧。其中,箭头指示hCIS的数量和每种元素类型的百分比。

图6d. 癌症驱动蛋白编码基因(CGC),非癌驱动蛋白编码基因(nonCGC),癌症相关lncRNA(CLC),GENCODE lncRNAS其余部分(non-CLC)的碱基对数目和重叠hCIS数目基因组的其余部分不与任何先前的元素类型重叠(基因间)
 

图6e. 每个基因类别的每兆碱基组跨度的重叠hCIS数
 

小结

        本文作者通过CLC基因的特征与功能和疾病相关的特征,LncRNA的古老保守癌症作用的证据等介绍了癌症LncRNA普查,这是第一批被GENCODE注释的lncRNA,其在肿瘤发生或癌症表型中的作用已得到证明,癌症LncRNA普查揭示证据,证明长非编码RNA在肿瘤发生中的深层功能保守性。

文献解读

高分文章解读:CRISPR研究思路

2020-8-29 23:57:39

文献解读

结直肠癌的单细胞转录组分析

2020-8-30 15:15:17

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索