RNA测序简介

1.RNA-seq的研究内容

假设蓝色细胞是一群正常的神经细胞,红色细胞是一群突变的神经细胞。

通过将两种细胞进行比较,找出这两种细胞差异表达的基因,从而找出表型机制差异。如gene3在正常细胞中高表达(活跃),gene2在突变细胞中高表达(活跃),而gene1在两种细胞中的表达水平一致。在分析过程中,高通量测序技术能测量细胞中基因的转录水平,并发现哪些基因是活跃的。

2. RNA-seq的主要步骤

2.1 准备RNA测序文库(基于illumina protocol介绍)

具体而言,建库又分以下步骤:

Step 1: 提取待测样本的RNA

Step 2: 将RNA打断成小的片段。

  • RNA的长度有数千个碱基,而测序仪的读长只有200到300个bp,故打断成片段后才能完成测序。

Step 3:将RNA反转录为DNA

  • 双链DNA比RNA更加稳定,双链DNA更容易扩增与修饰(加测序接头)。

Step 4:给双链DNA添加测序接头

  • 人工添加的接头序列与测序仪芯片上的序列互补,故测序仪能特异性识别加了接头的DNA片段;不同的样本使用不同的接头序列,故在一次测序中能区分不同来源的样本。需要注意的是,添加接头的效率并不是100%有效添加,故有些DNA片段可能未被添加接头,故测序芯片不能识别该片段。

Step 5:PCR扩增

  • 扩增引物是基于添加的接头序列设计,只有加上了接头的DNA片段才能扩增。

Step 6:质量控制

  • 确定文库的浓度和确定文库的长度,确保文库的长度不会太长,也不会太短。

2.2 测序

将构建的文库用于测序。

如下是假设的DNA片段序列,它是垂直的(在测序的芯片中,文库就是垂直排列的)。在测序芯片上的每个小方格(grid)中均有测序的序列,总共将近有4亿条这样的序列。为了方便原理学习,仅列出4条这样的序列,这样的一个小方格被称为流通池(flow cell)

在测序仪所使用的测序试剂中,带有碱基的荧光探针按其结合互补碱基的不同,其颜色也不同。当开始测序时,这些带有荧光探针的碱基就会结合到DNA片段上第1个碱基,一旦带有荧光探针的碱基结合到DNA片段的碱基上,测序仪就会拍下一张照片,从而测序仪记录每个芯片位点的碱基情况,如下所示,如左下角的碱基是A。

记录结束后,测序仪便洗脱掉探针(洗脱颜色)。接着,带有发光探针的碱基继续结合到测序序列的第二个碱基,在第二次结合后,测序仪会拍照记录每个芯片位点的碱基情况,如下所示。

第2张图片识别后,再次用试剂洗脱荧光探针(脱色)。然后继续进行第三次、第四次……探针与碱基结合,拍照记录不同芯片位点的碱基情况,洗脱荧光探针,直至测序结束。

以上展示的是4条片段的测序结果。在实际测序过程中,测序芯片上的DNA片段密度非常大,构成了一个密度极高的颜色矩阵。在这个过程中,可能会出现一些测序质量问题。有时候探针的颜色并不是非常清晰明亮,测序仪得到的结果的置信度不高。

  • 在测序的过程中,根据探针的亮度,会生成一个质量评分(Quality score),这个质量评分反映了测序仪对这个颜色识别的可信程度,像在下面的这个图片中,这个比较暗的点可能就会得到一个比较低的质量评分,如下所示:

  • 如,如果在某个芯片区域,呈现相同颜色的相同碱基太多,也会出现较低的质量得分。

    如下图右上角部分,这种现象称为低多样性(low diversity),即测序片段缺乏多样性。这种情况下,由于存在着大量的单一荧光,测序仪很难识别独特的碱基(大量单一荧光会掩盖独特的碱基荧光)。当测序仪刚开始测序时,由于测序仪要识别DNA片段位于芯片的位置,故识别片段的前几个碱基时很容易出现多样性差的问题。

2.3 测序原始数据

一次测序后往往会有4亿条reads原始数据,每条测序read由4行构成,如下所示:

  • 第一行:@开头,代表该条测序的独特ID。
  • 第二行:测序仪识别的测序片段的碱基组成。
  • 第三行:+,具体意义不明。
  • 第四行:质量信息,识别测序片段中每个碱基的质量得分。

3. 测序数据预处理

数据预处理:过滤不合格reads由于低质量碱基识别或者化合物干扰(正常情况下,测序片段由两个测序接头和DNA片段组成;异常情况时,测序片段仅由两个测序接头组成。)

②将高质量的reads比对到基因组。

  • 在基因组中,由于基因组的碱基序列很长。我们需要将基因组中的碱基打断,从而生成许多短的碱基序列。然后给基因组的这些片段加上索引,并记录下它们在染色体上的位置。
  • 在测序read中,也将测序片段打成小片段。
  • 把reads的小片段与基因组的小片段进行匹配。基于与reads小片段匹配的基因组小片段,就能推测出read小片段在基因组上的位置(某条染色体的某个位置)。

序列打断成小片段的原因:即使reads与参考基因组在不是特别精确匹配的情况下,也能进行匹配。如在下图中,该read最左侧的碱基是A,而对应的基因组上并没有A开头的小片段(因为我们自己的基因组与参考基因组略微不同)。但是该read的其他片段仍然能够与参考基因组中的索引片段匹配,即通过该read的其他片段进行参考基因组匹配。

对每个基因的read数量进行统计。 一旦知道每条read的染色体位置,便可以知道该read是否位于某个基因。例如知道Xkr4(Chromosome 1, position:3204563-3661579)与Rp1(Chromosome 1, position: 4280927-4399322)的坐标后,便可以统计是否有read位于该坐标,从而实现该坐标基因的read计数。统计每个基因的reads数后,便可以得到如下的矩阵:

在该矩阵中,行名为基因名,列名为样本名。

行:人类的基因组约有20000个基因,故该矩阵大约有20000行,这里仅展示其中的很少一部分。不同的行,代表不同的基因在各样本中的read计数。

列:在测序数据中,通常有6到800+个样本。对于混合组织(bulk)RNA-seq,样本由很多不同的细胞组织,这样的测序可能需要3个正常样本和3个疾病样本,共计6个样本;对于单细胞RNA-seq,每个样本为单个细胞,这样的测序往往有更多的样本,可以达800+个。随着测序技术的发展与普及,测序的费用越来越低,测序得到的矩阵将会包含越来越多的样本,测序结果矩阵将会越来越大。

④测序数据标准化。因为每个样本比对到基因组上的reads数不同,有些样本的reads质量低,而另外一些样本的浓度略大,导致其总的reads数略高,如下所示。Sample1的reads总数为635,而sample2的reads总数为1270,sample2的reads总数几乎是sample1的2倍。

这并不意味着sample2的基因转录是sample1的两倍。相反,它意味着sample2有更少的低质量reads,其被测序仪识别的荧光更多。通过read计数比较,Sample 2中基因的reads数是Sample 1中的基因reads数的2倍,这好像是提示sample2中的基因转录似乎是sample1中相同基因转录的2倍。

故需要调整每个基因的read计数数据,以真实的反映每个样本中基因转录的差异。最简单的方法是,每个基因的read计数数值除以该样本总read计数。但是也有很多复杂的方法进行调整计数数据,如RPKM、FPKM、TPM等等等。

4. 测序数据分析

第一步:绘图往往是数据分析的第一步,可用于数据的整体观察和发现离群值。因为测序矩阵维度较多,故往往需要使用降维可视化的方法展示数据的重要成分,如PCA。通过PCA处理,得到关于正常神经细胞(wt)和突变神经细胞(ko)的分布情况,其中正常细胞和突变细胞沿第一主成分分布,正常细胞集中在左下角,突变细胞集中在右下角,如下所示。这两类细胞沿第一主成分分布,说明在这两类细胞中存在最大的差异。但是在第二主成分轴的分析中,wt2与其他的wt细胞较分散,说明wt2与其他wt细胞存在较大的差异,提示wt2或许是一个离群值(outlier),在后续分析中可将其排除。

如果在单细胞测序结果中,我们得到的PCA结果如下:大多数橙色样本与绿色样本分隔较远,但是极少一部分橙色样本与绿色样本混杂在一起。如果我们想要了解橙色样本与绿色样本之间的差异,可能需要将混杂的部分细胞去除。

第二步:识别两类样本中差异表达的基因,并绘制火山图。可以使用edgeR或者DESeq2进行基因表达差异分析,可视化的火山图如图所示。红色的点代表差异表达的基因,黑色的点代表未显著差异表达的基因。x轴代表基因的转录水平(CPM, counts per million),y轴代表两组样本的相对差异(logFC, log(fold change))。

第三步:用实验验证数据分析的结果;或者进一步探究两种样本中富集的通路。

参考视频:https://www.youtube.com/watch?v=tlf6wYJrwKY&list=PLblh5JKOoLUJo2Q6xK4tZElbIvAACEykp

杂谈

香港执业医师专业知识考试对大陆地区住院医师规范化培训理论考核的启示

2020-9-30 22:46:22

杂谈

导师要抢我SCI论文一作 怎么办?

2020-10-2 22:22:44

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索