实验八、蛋白质的结构(3学时)
目的:了解分子三维结构的重要性,了解如何进行蛋白质的二级结构预测以及发现与自己的蛋白序列最适合的三维模型,学会运用结构浏览软件对生物大分子的结构进行观察。
内容:预测一个蛋白质序列的二级结构,从PDB站点检索并显示相应分子的三维结构,对蛋白质序列的三维结构进行猜测,观察蛋白质的三维结构及其序列特性。
一、 蛋白质序列的二级结构预测
蛋白质的二级结构预测已取得了巨大的成就。如今,利用Hidden Markov Models and neural networks方法,一些相当好的网上服务器可以对你感兴趣的任意一个蛋白质序列的二级结构进行准确的预测(注意:如果你的蛋白质与现有数据库中的记录有足够的同源性,就可以认为其二级结构的预测有近80%的准确性。但是,记住这只是个预测,与其它的预测一样,它们的准确性与估计值是有出入的)。我们以PSIPRED为例(预测最准确的服务器之一)来进行蛋白质二级结构的预测。
1、 将你感兴趣的蛋白质序列以FASTA格式存储于一个.txt文件中。(比如NP_360043
2、 进入由 Bioinformatics Unit of University College in London (UK)维护的蛋白质结构预测服务器 bioinf.cs.ucl.ac.uk/psipred/ . 点击页面下方的Click Here to Access the Server链接。
3、 将你的E-mail address 填在新出现的输入表格页面的上部相应字段里(服务器将结果以E-mail的形式返回给用户)。
4、 将你的蛋白质序列粘贴到Paste PROTEIN Sequence Here窗口中(注意:此处不需要FASTA 格式的头部注释行)。
5、 你可以在序列窗口下方的字段中为此次预测(你的序列)起个短名。
6、 点击Predict。如果事情顺利,则会跳出一个新页面通知你的预测工作已被提交,结果会发送到你所提供的E-mail帐号中。同时还会给你报出一个工作完成的大致时间。
缺省条件下,服务器执行二级结构预测方法,即PSIPRED。当然,如果你有时间,可以选择其它的三种预测方法:一种预测跨膜片段的方法以及两种识别折叠的方法。
7、 查看由psipred$.ucl.ac.uk发回的预测结果(你的e-mail,如果收不到,请参看实验数据-实验八中的message from PSIPRED.doc文件中查看)。这是一个简单的文本文件,除你的序列外还有两行额外的信息,它们与序列的每一列一一对齐。
ConfThe confidence)行:由093d预测专家推荐的数字组成,表明了每个位置预测构造的可靠性(9为高0为低)。
Pred(The predicton)行:由HEC三种特性组成,显示了每一个残基预测的构造。H=Helical, E=Extended, C= Random coil
Note: There are three types of local segments:
Helices: Where residue seem to be following the shape of a spring. The most common are the so-called alpha helices.
Extended or Beta-strands: Where residues are in line and successive residues turn their back to each other
Random coils: When the amino-acid chain is neither helical nor extended.
除此之外,PSIPRED还创建了一个便于发表使用的图形显示的结果。你可以在你的PSIPRED E-mail的末端发现这样的内容:
Calculate PostScript, PDF and JPEG graphical output for this result using bioinf.cs.ucl.ac.uk/cgi-bin/psipred/i?id=......
点击此处的链接,你就可以进入PSIPRED结果页面,它提供了三种不同格式的图形文件供你下载:PostScript File, PDF File and JPEG page. 由于我们的机子已经安装了Acrobat Reader,因此可以直接点击相应的链接(注意,预测的图形文件在原服务器上的保存时间只有一天左右,如果不能到相应页面,则可以使用实验数据-实验八中的NP——360043 second structure predict.PDF文件查看)。
图形结果中的conf行以柱状谱的形式表示,同时增加了一行用清晰的符号表达的pred行。
二、 利用更复杂的网上服务器预测其它的序列特性
如果只需要快速得到诸如“我的蛋白质的二级结构是什么样子的?”这类基本问题的答案,PSIPRED无疑是个理想的工具。然而如果想知道更多的你的蛋白质中的其它特性,则要转去
其它的网站。The PredictProtein server也许是进行蛋白质结构分析中最复杂的站点了,然而由Columbia University维护的原始网站非常繁忙,对你提交的预测工作的响应时间可能超过一两天。好在PredictProtein server在世界各地有很多镜像站点,包括欧洲、美国、亚洲以及澳大利亚。下面是一些PredictProtein server的网址:
Europe:
       
USA:    lumbia.edu/predictprotein/
        www.sdsc.edu/predictprotein/ .
你可以用一条序列试一下哪一个服务器比较适用。一般说来,PredicProtein的缺省分析包括了如下的内容:
* A secondary structure prediction on the three conformational states (H=Helical, E=extended, and C=Random coil)
* A prediction of the solvent accessibility of the various residues
* A prediction of transmembrane helices and their topology
* A prediction of globular regions in your protein
* A prediction of the coiled/coil regions of your protein
* A description of the PROSITE motifs matching your sequence (for more on PROSITE mitifs)
* A description of the putative domain structure for your sequence (Prodom domain)
* A prediction of bound cysteines (disulphide bonds) in your sequence
* A description of the composition-biased regions in your sequence
注意:上述各种特性是否能在返回给你的结果中显示依赖于你的查询序列中是否含有它们。
三、 PDB站点上进行蛋白质3D结构的检索与显示
Protein Data Bank (PDB) 是所有结构生物学家都认可的3D结构公共数据库。就象所有的分子生物学家都要将他们的序列数据存储于GenBank/EMBL/DDBJ那样,所有的3D结构数据也都存储于PDB中。然而,PDB提供的界面并不是为非结构专家设计的。你可以通过PDB的站点对一个蛋白质的3D结构进行检索。但检索前必须了解你要查的结构的一些准确信息。比如准确的蛋白质名称,如果知道它的PDB IDidentifier)就更好了。你可以通过具有友好的用户界面的ExPASy/SWISS-PROT服务器或利用各种NCBI查寻工具得到结构的ID
这里我们要查的是E.coliTolB蛋白的结构,它的PDB ID 1CRZ(想一想,给定了蛋白质的名称TolB及物种,我们如何得知它是否具有3D 结构数据?如何得知其在3D结构中的ID?)。
1、 进入PDB的主页( )。
2、 Search the Archive下侧文本框内输入1CRZ PDB ID of this protein),点击Search
在输出的结构中,上部给出了一些著录信息,描述了这一记录的内容。随后更多的是描述我
们难以理解的晦涩的结晶参数的技术数据。这里,我们只想知道这一蛋白分子在3D水平上是个什么样子。
3、 点击右上角的3D图形图标,则出现了一个浏览页面,可以使用多种交互式的3D结构格式(VRMLRamMol等)显示你的分子(我们会在本实验指导的后面介绍这种交互式方式)。现在,我们仅使用最简单的方式:显示静止的结构。
4、 在静止图像的下方,点击Ribbons (500X500)链接。你的结构图像会以带状形式显示。你也可以利用cylinders选项以柱形形式显示你的蛋白质中的螺旋结构区域。
5、 保存图像,在图像上右键点击鼠标,选择保存文件的格式、文件名称及保存目录。
(注意:PDB文件不易被非结构专家所阅读。它们的内容相当冗长,包含了大量的数据,比如结构中每一个原子的三维坐标以及它们之间的联系信息。如果你确定你要下载一个PDB文件,就可以的页面左侧栏中到相应的操作链接(Download/Display File))
在页面左侧,有一项显示序列信息的链接(Sequence Details),点击它,你可以看到这一序列中实际的二级结构。你可以将它与前面我们预测的NP_360043的二级结构进行比较(想
一想,为什么我们可以对这两个蛋白的二级结构进行比较?如何知道这两个序列的相似性以及两个序列上相似性区域的位置?)。
四、 猜测你的蛋白质可能的3D结构
尽管我们能够检索并显示一个PDB结构,但我们还是不能了解我们的序列在三维形式中会是个什么样子。

发表评论