基因家族分析方法概览

大家好,基因家族分析上一期分享了一篇文章,获得了挺多小伙伴的反馈,想让我再汇总一下分析方法,那么好,我就汇总下,只当是抛砖引玉,欢迎各位小伙伴留言讨论。

第一篇-Hsp20家族识别

Genome-wide analysis of the potato Hsp20 gene family: identification, genomicorganization and expression profiles in response to heat stress

1、数据下载:PGSC数据库下载potato所有的蛋白序列,Pfam数据库下载Hsp20基因家族HMM文件PF00011 。

2、使用hmmsearch 阈值 e-value <=0.001 来搜索Hsp20 家族基因。

3、使用拟南芥Hsp20蛋白作为队列与potato所有的蛋白库进行比对,阈值e-value <=0.001。

4、“Hsp20” and “small heat shock protein”关键字 在PGSC中搜索。

5、Hsp20不完整domain或分子量在15-42之外的蛋白过滤掉。

第二篇:NBS-LRR家族识别

Identification and distribution of the NBS-LRR gene family in the Cassava genome

1、下载全基因组蛋白和Pfam数据库NBS (NB-ARC) 基因家族HMM文件PF00931

2、使用hmmsearch 阈值E-value < 1 × 10-20 来搜索NBS家族基因。

3、搜索得到的蛋白序列利用clustalw进行多序列比对,然后利用hmmbuild 构建hmm文件。

4、功能注释在拟南芥和UNIREF100 中最接近的同源序列进行过滤。

5、至少含有一个partial kinase domain 并与NBS domain无关的序列被滤除(NBS domain 小于 partial kinase domain)。

第三篇-WRKY家族识别

Genome-wide investigation of WRKY gene family in pineapple: evolution andexpression profiles during development and stress

1、下载全基因组蛋白和Pfam数据库WRKY 基因家族HMM文件PF03106。

2、使用hmmsearch 默认参数搜索,阈值E-value < 0.01 来搜索WRKY家族基因。

3、候选WRKY家族基因使用PFAM 和 SMART来进行验证,核查是否存在保守结构域。

4、人工核查N-terminal 是否含有heptapetide sequence 。

5、RNA-seq数据回比到genome和gene model 上,预测不正确的WRKY基因通过PCR和测序来进行实验验证。

以上就是3篇不同基因家族的预测分析方法,简单的总结一下:

第一:全基因组蛋白质序列和pfam数据库家族hmm模型文件准备。

第二:hmmsearch 进行比对搜索,并根据比对情况设置阈值。

第三:核查。方法有很多,如数据库、RNA-seq数据、蛋白家族分子量等都可以进行。

注意,模式生物的蛋白家族也是可以用来进行纠错的。

好了,小伙伴们,基因家族分析的方法简单介绍到这里,你是不是也想试一试了呢?

生物信息学

单细胞测序:scRNA-seq数据的标准化处理

2020-8-28 0:59:25

生物信息学

单细胞测序:scRNA-seq数据的预处理与质控

2020-8-28 1:08:47

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索