生信经验分享-转录组测序(基因定量篇)

上篇文章小编为大家简单介绍了转录组分析的第二步——组装,转录本组装主要是为了接下来的转录本定量和新转录本鉴定等分析,下面小编来介绍下转录组分析的第三步——基因定量吧~

我们在进行生物学研究的时候,经常会采用不同的方法对实验材料进行处理,处理后实验材料会表现出不同的表型,例如植物叶片枯萎或患病等,这些表型的不同是由于基因表达水平的不同所导致的,而衡量基因表达水平的变化就需要做基因定量。

一般来说,对基因进行定量,首先需要计算比对到各个基因的read counts,因为在进行下游差异分析时,需要使用read Counts作为输入文件。衡量基因表达水平的指标主要有RPKM,FPKM和TPM。由于每个基因的长度和测序深度不同,因此在计算上述三种指标时需要对基因或转录本的read counts进行标准化。本文,主要介绍read counts和FPKM值的获取方法

一、 read counts计算方法

1. 软件介绍

featrueCounts已经整合到Subread软件中,可用于对基因、外显子、启动子等基因组特征进行read counts计数。主要用于对RNA-seq和DNA-seq的reads进行计数。featureCounts可在SourceForge Subread package或Bioconductor Rsubread package中获得(http://subread.sourceforge.net/) 。

 

2. 软件安装

下载:

使用下方链接下载feature源代码。

https://sourceforge.net/projects/subread/files/subread-2.0.1/

解压:

feature软件无需安装,下载解压就可以直接使用。

使用:

 

3. 软件使用

featureCounts软件使用与参考基因组比对后的bam文件计算比对到各个基因的read counts数。

注:可使用featureCounts -h 查看featureCounts软件的其他参数。

 

4. 运行结果

featureCounts运行完成后主要生产2个文件:*.txt和*.txt.summary。

*.txt.summary是对reads的统计结果,文件内容如下:

从结果中可以看出该实验有9842671条reads 定量到了基因上。

*.txt记录了比对到各个基因的read count数,文件内容如下:

结果文件共分为7列,分别为:

Geneid:基因ID;

Chr:基因的各个外显子所在的染色体号;

Start:基因的各个外显子起始位置;

End:基因的各个外显子终止位置;

Strand:基因各个外显子所在正负链信息;

Length:长度;

*.sort.bam:比对到该基因的read counts数;

 

二、 FPKM计算方法

在转录组分析中,一般使用FPKM来衡量基因表达量。FPKM全称为Fragments per Kilobase Million,是指每百万的reads比对到外显子的每千碱基的fragments数。其公式为:

计算FPKM的方法有很多,我们可以根据featureCounts软件的结果文件和FPKM公式进行计算,也可以使用现有软件进行计算。下面主要介绍使用Cufflinks软件计算FPKM的方法。

 

1. 软件介绍

Cufflinks主要用于转录本测序分析中的组装,定量和差异分析。其软件的输入文件可以是比对后的文件和组装后的文件。Cufflinks主要有几大分支程序,主要有Cufflinks,Cuffmerge,Cuffquant,Cuffdiff和Cuffnorm来执行转录组分析的不同步骤。其中,主要使用Cuffquant和Cuffnorm来计算FPKM(https://github.com/cole-trapnell-lab/cufflinks)。

 

2. 软件安装

下载:

使用下方链接下载Cufflinks源代码。

http://cole-trapnell-lab.github.io/cufflinks/install/

由于压缩包是二进制文件,下载后无需安装,可直接使用。解压后文件夹内包括Cufflinks软件的所有程序分支程序,本文主要介绍cuffqunat和cuffnorm。

cuffquant使用:

 

cuffnorm使用:

 

3. 软件使用

首先使用cuffquant对单个样本的bam文件的基因表达水平进行定量。

注:可使用cuffquant 查看cuffquant软件的其他参数。

生成的结果文件为abundances.cxb。

接着使用cuffnorm以abundances.cxb文件作为输入文件对基因和转录本的表达水平进行标准化。

cuffnorm的结果文件主要包括该实验中基因、转录本和CDS标准化后的表达水平,文件列表如下:

其中genes.fpkm_table为各个基因的FPKM值:

经验总结:

安装cufflinks软件时,需要提前安装samtools软件和Boost C++库。软件所需的参考基因组注释文件可在下载参考基因组时进行下载,若下载的注释文件为gff3格式,建议转换为gtf文件。至此,转录本分析的第三步——基因定量的操作过程就介绍完了,希望对各位小伙伴有所帮助,我们下一期再见吧~

生物信息学

在matplotlib中对图标的坐标轴进行调整

2020-8-25 22:40:55

生物信息学

深度剖析基因集富集分析-GSEA

2020-8-26 20:47:42

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索