生物信息学工具介绍
1FASTA[10]www.ebi.ac.uk/fasta33/)和BLAST[11]bi.v/BLAST/)是目前运用较为广泛的相似性搜索工具。比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时间内完成搜索比较操作。FASTA使用的是核酸结果查询平台Wilbur-Lipman 算法的改进算法,进行整体联配,重点查那些可能达到匹配显著的联配。虽然FASTA不会错过那些匹配极好的序列,但有时会漏过一些匹配程度不高但达显著水平的序列。使用FASTABLAST,进行数据库搜索,到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST(Basic Local Alignment Search Tool,基本局部联配搜索工具)是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA 有更多改进,速度更快,并建立在严格的统计学基础之上。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。BLAST根据搜索序列和数据库的不同类型分为5种:1BLASTP是蛋白序列到蛋白
库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。2BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。3BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTNBLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。
2ClustalW[12](www.ebi.ac.uk/clustalw/)是一个最广泛使用的对核酸与蛋白序列进行多序列比对的程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双
重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在α-螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,而这些残基更喜欢显示这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是有位置决定的。多序列比较在分子生物学中是一个基本方法,用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子 进化分析方面均有很大帮助,Clustal X很适合这些方面的要求。输入序列使用FastA格式,输出结果除了可以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。
3MEGA[13]asoftware/)系列软件用于检验和分析DNA、蛋白质序列的演化。MEGA能对多个序列数据进行分析、对类内和类间的遗传多样性进行估计,还可以推断高等级水平的物种、基因的演化关系。这个软件内嵌了很多用于估计演化距离、计算类内和类间分子序列和遗传多样性、以及最小演化和最大简约标准下推断系统发育关
系的方法。它还可以对系统发育关系进行自展和可靠性置信概率(confidence probability)检验、以及确定世系间替代模式异质性分散指数(disparity index)。新的MEGA版本强调了序列获得和演化分析的整合;允许多种格式数据输入,用户可以在多个窗口检视结果,进行序列数据的操作和编辑、系列比对和系统发育关系树推断,并进行演化距离估计。结果输出窗口(results explorers)允许使用者进行浏览、编辑、总结和输出结果。还包括距离矩阵、系统发育关系展示窗口(explorers),以及一些用于直观呈现输入数据和输出结果的高级图形模块。
4MEME[14][15]meme.sdsc.edu/)是在DNA或者蛋白质序列中搜索高度保守域的一个在线工具,也可下载在本地使用。
5Pfam[16]www.sanger.ac.uk/Software/Pfam/)是一收录大量序列比较和基于隐马可夫链算法的蛋白质家族比较的数据库及服务器。Pfam 19.0200512月)版本包含了8183个蛋白家族连配序列数据和模型,序列数据来自Swissprot 48.1SP-TrEMBL 31.1蛋白数据库。
6SMART[17]bl-heidelberg.de/)也是基于隐马可夫链算法的蛋白质家族
比较的工具,提供蛋白序列,在结构域数据库中查询/显示出其结构域及跨膜区等。最初用来研究涉及真核生物信号转导的蛋白质结构域,现已扩展到细胞外蛋白质的活性结构域、细菌调控系统以及与DNARNA、染体和细胞骨架功能有关的结构域。
7GSDS[18]gsds.cbi.pku.edu/chinese.php)是一个绘制基因结构示意图的在线网络服务器,还能在基因结构图上标注特定的区域(如功能区)和内含子相位。
8MapInspectwww.dpw.wau.nl/pv/PUB/MapComp/)是一个计算基因距离并图形化显示的软件,可将基因在染体上定位。