构建系统发育树需要注意的几个问题
1 相似与同源的区别:只有当序列是从一个先人进化不合而来时,它们才是同源的。
2 序列和片段可能会彼此相似,可是有些相似却不是因为进化关系或生物学功能相近的缘故,序列组成特异或含有片段重复或许是最明显的例子;再确实是非特异性序列相似。
3 系统发育树法:物种间的相似性和不同性能够被用来推断进化关系。
4 自然界中的分类系统是武断的,也确实是说,没有一个标准的不同衡量方式来概念种、属、科或目。
5 枝长能够用来表示类间的真实进化距离。 
6 重要的是明白得系统发育分析中的计算能力的限制。任何构树的实验目的大体上确实是从许多不正确的树中挑选正确的树。 
7 没有一种方式能够保证一颗系统发育树必然代表了真实进化途径。但是,有些方式能够检测系统发育树检测的靠得住性。第一,若是用不同方式构建树能取得一样的结果,这能够专门好
的证明该树是可信的;第二,数据能够被从头取样(bootstrap),来检测他们统计上的重要性。
分子进化研究的大体方式
关于进化研究,要紧通过构建系统发育进程有助于通过物种间隐含的种系关系揭露进化动力的实质。 
表型的(phenetic)和遗传的(cladistic)数据有着明显不同。Sneath和Sokal(1973)将表型性关系概念为依照物体一组表型性状所取得的相似性,而遗传性关系含有先人的信息,因此可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示别离依照表型性的和遗传性的关系所成立的关系树。进化分枝图能够显示事件或类间的进化时刻,而表型分枝图那么不需要时刻概念。文献中,更多地是利用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有不同的名称。 
系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时刻顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的先人问题。     
用于构建系统进化树的数据有二种类型:一种是特点数据(character data),它提供了基因、个体、体或物种的信息;二是距离数据(distance data)或相似性数据(similarity data),它涉及的那么是成对基因、个体、体或物种的信息。距离数据可由特点数据计算取得,但反过来那么不行。这些数据能够矩阵的形式表达。距离矩阵(distance matrix)是在计算取得的距离数据基础上取得的,距离的计算整体上是要依据必然的遗传模型,并能够表示出两个分类单位间的转变量。系统进化树的构建质量依托于距离估算的准确性。
clustal X建树
1) 打开clustal X,载入上述序列,“load sequences”→“output format options”:  “CLASTAL FORMAT”; CLASTAL SEQUENCES NUMBERS:ON;
ALIGNMENT PARAMETERS:
“RESET NEW GAPS BEFOR ALIGNMENT” 
“MULTIPLE ALIGNMENT PARAMETERS”→设置相关参数
2)“DO COMPLETE ALIGNMENT”→FILE→SAVE AS,掐头去尾。
3) 打开MEGA 4,FILE→CONVERT TO MEGA FORMATE→SAVE→FILE→OPEN DATA→CONTAINING PROTAIN SEQUENCES NO →PHYLOGENY→BOOTSTRAP TEST OF PHYLOGENY→N J →设置相关参数。最后看到系统发育树
那个地址要介绍的是Bioedit-Mega建树法,简单有效,极易上手。
1 将所测得的序列在NCBI上进行比对,那个就不多讲了。
2 选取序列保留为text格式。 
3 运行Bioedit,利用其中的CLUSTAL W进行比对。 
4 运用MEGA 4 建树,第一将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。 
此法简单有效,树形美观。
构建系统进化树的详细步骤 
1. 建树前的预备工作 
bootstrap 软件 相似序列的取得——BLAST 
BLAST是目前经常使用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“大体局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际闻名生物信息中心都提供基于Web的BLAST效劳器。BLAST算法的大体思路是第一出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两头延伸,以出尽可能长的相似序列片段。 第一登录到提供BLAST效劳的经常使用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST效劳在界面上差不多,但所用的程序有所不同。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等能够是任意形式,换行以后是序列)粘贴到那个大的文本框,选择适合的BLAST程序和数据库,就能够够开始搜索了。若是是DNA序列,一样选择BLASTN搜索DNA数据库。
那个地址以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Searc本框中粘贴检测序列-点击BLAST!-点击Format-取得result of BLAST。 BLASTN结果如何分析(参数意义):
>gi||gb|| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence 
Score = 2020 bits (1019), Expect = 
Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)
Strand = Plus / Plus
Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60
Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58
Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120
Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118
Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;  Expect:比对的期望值。比对越好,expect越小,一样在核酸层次的比对,expect小于1e-10,就比对专门好了,多数情形下为0; 
Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同; 
Gaps:一样翻译成空位,指的是对不上的碱基数量; 
Strand:链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,若是是Plus / Plus那么二者皆为正向。
序列格式:FASTA格式   
由于EMBL和GenBank数据格式较为复杂,因此为了分析方便也显现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的题目行以大于号“>”开头,下一行起为具体的序列。一样建议每行的字符数不超过60或80个,以方便程序处置。多条核酸和蛋白质序列格式即将该格式持续列出即可,如下所示: