网红进化树软件iqtree升级啦

自2013年推出以来,iqtree以其快速精准的建树和全面的功能在竞争激烈的系统发育树(phylogenetics)领域快速蹿红,并广受好评,目前砍下谷歌学术4471次引用。七年后,来自澳大利亚国立大学的Bui Quang Minh(裴光明,有没有懂越南语的朋友看下译的对不对)团队终于推出了iqtree 2.0版【1】!

此次2.0版改进的主要功能在iqtree的官方网站(www.iqtree.org)已经写的很清楚了:

简单说一下:

1. –s以前只是针对单独的序列文件,现在可以加入含多条序列的文件夹,更加方便多基因联合建树

2. 对有根树利用不可逆替换模型的推断

3. 限定拓扑结构推断(-g)时建树速度更快

4. -S、—gcf以及–scf:由于不同位点以及多基因建树中不同基因(或partition)可能得出不同的树形,而这些可能在最终的树中反映不出来,即便树的内部节点的支持度很高。举个不恰当的例子,16年美国大选,按照选举规则川普以304比227选举人票数的绝对优势击败了希拉里,但这绝不意味着选民的投票是一边倒支持川普,甚至总得票率川普还落后希拉里2个百分点。那么,你的dataset是铁板一块吗?其中是否存在这样的现象呢?iqtree 2.0这两个选项(-S和–gcf)为用户提供了类似情形的便捷方法【2】

5. –modelomatic:对于不同类型序列的最佳模型选择。如你的dataset内既有protein,也包括核酸,还有形态学数据,那么记得考虑这个参数【3】。

6. –symtest:目前一般的建树方法,都是基于所谓的SRH原则,即stationary, reversible, and homogeneous。裴光明及其合作者的研究指出,对于SRH原则的违背在文献中十分普遍【4】,于是乎建出来的树是否真的可靠就要打上问号了。你的dataset是否存在对该原则的违背呢?不妨用–symtest检测一下。

7. –tbe:Transfer bootstrap expectation:一种新的对进化树拓扑结构支持度的评价方法【5】,该法在raxml-ng中也已配备【6】。

8. –mlrate:对每个位点(site)的替换速率的最大似然估计

9. 塔拉什分析?惭愧了,我只知道国际象棋里有一个塔拉什防御。

10. 再补充一个,2.0.3版本中增加了LSD2法对进化时间的推算。该法由旅法越南学者苏秋贤 (Thu-Hien To) 和 Gascuel等人于16年开发。不过目前有两个不足之处,一是给出的结果属于点估计(2.0.6版本中可使用–date-ci对confidence interval进行估计但作者提示暂时可能有bug),二是当不同序列或物种间进化速率差异较大时,可能不太灵光,详情请浏览http://www.iqtree.org/doc/Dating。

关于iqtree2.0版的内容就说完了。不过我想再多唠叨几句关于iqtree的东西。

几年前,最大似然法进化树构建就已经有像raxml、MEGA、phyml等居于主导地位的优秀软件了。在这样的大背景下,为何裴教授要开发iqtree呢?19年美国马萨诸塞州举行的Workshop on Molecular Evolution上,裴教授讲到了以下三点:

1. 迎合大数据,以及系统发育基因组学(phylogenomics analysis)的分析需求

2. 提供丰富的进化模型(就模型选择是否有价值,去年有不同实验室提出了新的不同观点,详情请见生信人往期推送19年五次生信争议事件

3. 同其他软件进行比较和友好竞争,给予用户选择空间,这对整个领域的发展是有益处的。

一般来讲,由于计算复杂,最大似然法进化树构建需要采取启发式算法(Heuristic)。也就是,我们无法找到那棵最佳的树,但在有限时间内,可以退而求其次找到一个足够好的树。

举个例子。圣诞节要到了,我们要布置一颗圣诞树,那么怎样装饰才是最好的呢?假如存在一个所谓的最美圣诞树,大概穷尽毕生之力也是无法构建出来的,因为可能稍一改变,可能就能得到一颗更美的圣诞树,更不要完全不同的装饰思路了。所以我们一般的思路是,先找到一个感觉上不错的设计方案搞出来。接着,我们通过对圣诞树的分枝的裁剪和安装,装饰物的变换,涉及不同的圣诞树的造型。我们还要注意有没有另外的“圣诞树结构”,提防由于只见树木不见森林忽略了其他的圣诞树结构陷入“局部最佳”的幻境而浑然不知。当我们小心翼翼地搞定了一切,最终,会得到一个虽然不十全十美但大部分时候也能令人满意的树。当然,如果不够走运,经过反复修改都不能满意,那么园丁们有两个选择,要么将就,要么推倒重建。

在系统发育分析中,对进化树的构建与装饰圣诞树有很多相似之处,也是通过对树的不断剪切变化一步步优化树,只不过算法十分复杂,而且初始树未见得只有一棵。具体到iqtree,它采用了Hill climbing NNI and downhill NNI方法试图找寻答案(见下图,由于这里完全超出了我的知识水平,故此略去)。

Iqtree的hill climbing NNI and downhill NNI示意图,类比爬山【7】

对一般用户而言,iqtree速度的优势也许体现在其ultrafast bootstrap。提醒大家,如果选择ultrafast bootstrapping,进化树上的支持度大致上代表拓扑结构“正确”的概率,以95%以上为基准认为所谓可靠,大致相当于传统bootstrap 80左右【8】。

此外,传统的替代模型假设各个位点都按照相同的平衡频率(equilibrium frequency)。然而,这在生物学意义上说并不正确。比如某些催化位点特别保守,保守到甚至只容许有一种氨基酸,而有些无关痛痒的区域却是20种氨基酸群魔乱舞。对此有两个解决方案。一是像phylobayes那样对不同位点的平衡频率进行估测,二是采用iqtree中的经验方法——在iqtree中已经内置了6个mixture model,从C10,C20一直到C60,该法最初由法国国家科学研究中心CNRS的黎士光(Le Si Quang,再次呼叫懂越南语的朋友)、Gascuel和Lartillot提出【9】。这些mixture model被认为是目前比较先进的策略,多次在解决重要phylogenomics难题中发挥作用(这里说phylogenomics,显然是对于多基因联合构建物种树的情形,对于单基因树因要估计的参数过多,mixture model往往效果不佳),其缺点是对内存要求较高。具体操作请大家参考【10】。此外,年初的时候,匈牙利Eötvös Loránd University的Gergely Szöllős实验室推出了一个叫做EDCluster的软件【11】,想为你的dataset量身打造特定mixture profile的朋友推荐试下。

其实,iqtree2.0早在去年年底就在biorxiv上投放了,并于年初正式见刊【1】,只是由于iqtree内容丰富,怕自己才疏学浅、误人子弟,所以一直未能腾出手来完成iqtree2.0的推送。不知不觉已经加入生信人团创作队两年了,本文正好是我创作的第100篇微信推送,思来想去决定还是在自己相对熟悉的领域写点东西,也正好是一个合适的时机把iqtree2.0补上。以上,小编走马观花地对iqtree和其升级版抒发了一些自己的观点,难免浅尝辄止、错进错出。有关iqtree的更多更深入的内容,还请参考官网和使用手册。此外,iqtree还提供在线服务:http://iqtree.cibiv.univie.ac.at,值得一试。

引文

1. B.Q. Minh, H.A. Schmidt, O. Chernomor, D. Schrempf, M.D. Woodhams, A. von Haeseler, R. Lanfear (2020) IQ-TREE 2: New models and efficient methods for phylogenetic inference in the genomic era. Mol. Biol. Evol., 37:1530-1534.

2. B.Q. Minh, M.W. Hahn, R. Lanfear (2020) New methods to calculate concordance factors for phylogenomic datasets. Mol. Biol. Evol. https://doi.org/10.1093/molbev/msaa106

3. Naser-Khdour, Suha, et al. “The prevalence and impact of model violations in phylogenetic analysis.” Genome biology and evolution 11.12 (2019): 3341-3352.

4. Whelan, Simon, et al. “ModelOMatic: fast and automated model selection between RY, nucleotide, amino acid, and codon substitution models.” Systematic biology 64.1 (2015): 42-55.

5. Lemoine, Fréderic, et al. “Renewing Felsenstein’s phylogenetic bootstrap in the era of big data.” Nature 556.7702 (2018): 452-456.

6. Lutteropp, Sarah, Alexey M. Kozlov, and Alexandros Stamatakis. “A fast and memory-efficient implementation of the transfer bootstrap.” Bioinformatics 36.7 (2020): 2280-2281.

7. Bui QM, Workshop on Molecular Evolution. 2019

8. http://www.iqtree.org/doc/Frequently-Asked-Questions

9. Si Quang, Le, Olivier Gascuel, and Nicolas Lartillot. “Empirical profile mixture models for phylogenetic reconstruction.” Bioinformatics 24.20 (2008): 2317-2323.

10. http://www.iqtree.org/doc/Complex-Models

11. Scalable empirical mixture models that account for across-site compositional heterogeneityDominik Schrempf, Nicolas Lartillot, Gergely Szöllősi. bioRxiv 794263

工具介绍

使用SnapGene viewer绘制比较基因簇结构图

2020-8-15 16:42:21

工具介绍

如何利用NCBI寻找目的基因

2020-8-16 12:29:17

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索