利⽤MEGA-X选择模型及构建美化进化树
今天主要介绍的是在MEGA-X图形界⾯下构建系统发育树并且对发育树进⾏美化。下载安装好MEGA-X后,⾸先打开软件。
此处我们以⼀株细菌的16S rRNA序列为⽬标序列,⾸先在NCBI中进⾏Blast⽐对,下载将要⼀起⽐对建树的菌株序列。在NCBI中输⼊序列或者上传⽂件,选择数据库时可以选择「Nucleotide collection(nr/nt)」或者「16S ribosomal RNA sequences」数据库,⼀般来说nr/nt库信息⽐较全⾯。
我们选择了10个不同种的16S rRNA序列进⾏下载。另外,此处还可以⽐对下载2-3条⼤肠杆菌(Escherichia coli)和沙门⽒杆菌(Salmonella)的16S rRNA序列作为外类(在Organism选项中进⾏物种限定),后⾯推断进化时间的时候可以⽤到。将所有下载的序列整理在⼀个⽂件中,为了⽅便后⾯的建树可以将菌株名称后⾯多余的信息在这⾥替换删除掉(只是名称上的信息,不要改动碱基序列),然后将⽂件的扩展名改为.fasta。在MEGA-X⾸页选择DATA,点击Open a File/Session,选择刚才的⽂件。
打开⽂件时询问「Analyze or Align File?」,此处点击Align。序列中可能会出现混合碱基符号,混合碱基符号指两种或多种碱基(核苷)混合物的表⽰符号,或未完全确定可能属于某两种或多种碱基(核苷)的符号:R表⽰A+G;Y表⽰C+T;M表⽰A+C;K表⽰G+T;S表⽰C+G;W 表⽰A+T;H表⽰A+C+T;B表⽰C+G+T;V表⽰A+C+G;D表⽰A+G+T;N表⽰A+C+G+T。
接下来选择序列⽐对的⽅法:Muscle或者ClustalW。ClustalW的基本原理是⾸先做序列的两两⽐对,根据该两两⽐对计算两两距离矩阵,是⼀种经典的⽐对⽅法,使⽤范围也⽐较⼴泛。Muscle的功能仅限于多序列⽐对,它的最⼤优势是速度,⽐ClustalW的速度快⼏个数量级,⽽且序列数越多速度的差别越⼤。⽅法可以通过点击图中上⽅Alignment或者下⽅的图标「W」和「Muscle」来选择。如果你的序列是DNA 编码序列,就⼀定要选择Align Codons,因为序列通过密码⼦⽐对⽐DNA序列的⽐对会更加真实,避免间隙对⽐对结果产⽣的影响。MEGA 可以⽐较⽅便快速地将密码⼦排列⽐对,后续作为输⼊⽂件在软件PAML或DATAMONKEY中进⾏进化压⼒的分析时就会⽐较⽅便。
在这⾥我们选择Muscle进⾏序列排列,点击Align DNA,会出现⼀些参数选项,根据⾃⼰需要进⾏修改,在这⾥直接点击OK选择默认参数即可。
⽐对之后要去检查⼀下⽐对的情况,有的差异很⼤的或许是因为序列⽅向反了,这个时候要把它反转回来,右击这条序列,点击Reverse Complement,反转后⼀定要再次点击Muscle⽐对,检查是否⼤部分都对齐了。
这⾥我们可以将最后对⽐后的⽂件导出,可以导出保存为MEGA格式。
然后点击Data中的Phylogenetic Analysis直接进⾏系统发育分析。
分析后返回主页⾯,接下来我们要选择⼀个最优的模型,提⾼建树的精确度。如果想要快速建树可以省去这⼀步,直接选择默认的模型。点击MODELS中的Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻最适合的模型。
分析时选择默认参数,开始进⾏分析计算。
不久就会显⽰分析计算结果。具有最低BIC分数(BayesianInformation Criterion)的模型被认为是最好地描述替代模式。对于每个模型,还给出了AICc值(Akaike Information Criterion, corrected,值越低拟合程度越好),以及⽤来计算上述两个分值的最⼤似然值(lnL)和参数数量(包括分⽀长度)。在这⾥就可以看到,BIC分数最低的模型是K2+G+I,K2+G+I在这⾥就是最好的模型。
但因为实际在后⾯的模型选择中,软件有时没有提供组合的模型来选择,所以我们继续看下⾯的BIC分数,可以到单个模型中得分最⼩的,就是我们在这⾥要选择的最优模型。看到这⾥的BIC值最低的单个模型是TN93(Tamura-Nei)。
模型选好后,就可以点击PHYLOGENY进⾏⽅法的选择了。构建系统发育树有三种主要的建树⽅法,分别是距离法、最⼤节约法(maximumparsimony, MP)和最⼤似然法(maximum likelihood,ML)。最⼤似然法考察数据组中序列的多重⽐对结果,优化出拥有⼀定拓扑结构和树枝长度的进化树,这个进化树能够以最⼤的概率导致考察的多重⽐对结果;距离树考察数据组中所有序列的两两⽐对结果,通过序列两两
之间的差异决定进化树的拓扑结构和树枝长度,基于距离的⽅法有UPGMA、ME(Minimum Evolution,最⼩进化法)和
NJ(Neighbor-Joining,邻接法)等;最⼤节约法考察数据组中序列的多重⽐对结果,优化出的进化树能够利⽤最少的离散步骤去解释多重⽐对中的碱基差异。在这些⽅法中,如果模型合适,ML的效果较好。对于近缘序列,有⼈喜欢MP,因为⽤到的假设最少,远缘序列上⼀般⽤NJ或者ML,这两个⽅法都是需要选择模型的。对于相似性很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),这种现象有时候会严重⼲扰进化树的构建。其实当序列的相似性⽐较⾼时,各种⽅法都会得到不错的结果,模型之间的差别也不是很⼤。所以平时我们⼀般推荐⽤两种不同的⽅法进⾏建树,如果得到的进化树类似,则结果较为可靠。这⾥我们先选择Neighbor-Joining法建树。
点击⽅法后,选择⾃展值,即重复建树以进⾏检验的次数,⼀般选择1000以上才⽐较可靠。模型的话选择之前计算好的最优的模型,点击OK。
稍等⽚刻,就初步构建好了这个树,接下来我们对这棵树进⾏⼀些调整和美化。⾸先我们看到每棵树的前⾯都标有⾃展值,这主要是对进化树进⾏评估的⼀个百分⽐值。因为进化树的构建是⼀个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采⽤了⼀个适当的⽅法,那么所构建的进化树就会接近真实的「进化树」。这⾥的数值表⽰我们将该树重复构建1000(之前
设置的数值)次,得到相同结果的次数占重复次数的百分⽐值。⼀般Bootstrap的值>70%,则认为构建的进化树⾮常可靠,50%-70%认为基本可靠,⼩于50%认为不可靠(不同的⼈对于这个阈值有不同的划分)。如果Bootstrap值太低,则有可能进化树的拓扑结构有错误。当Bootstrap的值⼩于50%时,我们⼀般选择隐去。
点击左上的⼯具图标,隐去较低的⾃展值可以点击此处的Branches。
设置隐去50以下的数值。
这个⼯具栏⾥的其他选项还可以对字体和线条粗线长短等进⾏修改,并且将想要突出的菌株和分枝信息进⾏重点标注。
左边的⼯具栏⾥还可以对进化树进⾏修改,⽐如改变树根,调整分枝的上下位置,以及重点标记突出某个分枝信息。
最后美化结果。
在这⾥还可以点击树形图标将进化树修改成为圆圈型和松针型。
结果图展⽰如下。
为了数据更加可靠,⼤家可以再选择另外⼀种⽅法进⾏建树,和上⼀种⽅法构建出的进化树进⾏⽐对。然后最后导出储存图⽚,这⾥提供EMP、SVG (⽮量图,可进⼀步通过绘图软件如AI编辑)、PDF、PNG和TIFF (位图)⼏种格式来导出。
记得将进化树的⽂本⽂件也保存⼀下。点击File中的Export Current Tree(Newick)保存Newick格式。
保存后的树⽂件格式如下,导出的树⽂件便于之后在iTOL、Evolview、Figtree等⼯具中进⾏更进⼀步的美化,⽐如添加分类颜⾊、标记以及热图和条形图等。
MEGA的使⽤⾮常⽅便,作为⼀个历史悠久并且极具创新精神的软件,它⼀直在提⾼⾃⼰的计算速度,丰富⾃⼰的计算平台。今天主要介绍了⽤图形界⾯MEGA-X建树的操作步骤,下次我们来介绍下根据MEGA-X构建的进化树来推断物种进化时间以及链接到DATAMOKEY等软件去计算进化压⼒等,期待⼀下吧。参考⽂献:Kumar S, Stecher G, LiM, et al. MEGA-X: Molecular Evolutionary Genetics Analysis across computingplatforms[J]. Molecular Biology & Evolution, 2018.bootstrap 软件