生工1202生物信息学考试参考资料
1、生物信息学的主要应用有哪些?
①生物信息学数据库:数据库建立、数据库整合和数据挖掘
②序列分析:序列比对、基因序列注释
③其他:比较基因组学、基因和蛋白质的表达分析、生物芯片大规模功能表达谱的分析、蛋白质结构的预测、蛋白质与蛋白质的相互作用、生物系统模拟、代谢网络建模分析、计算机进化生物学、生物多样性研究、合成生物学
2、生物学数据库有哪些特点?
①数据库的更新速度不断加快、数据量呈指数增长
②数据库使用频率增长更快
③数据库的复杂程度不断增加
④数据库网络化
数据库学什么
⑤面向应用
⑥先进的软硬件配置
3、一级数据库和二级数据库的区别是什么?有哪些一级数据库和二级数据
库?
一级数据库属于档案数据库,库中的主要内容是来源于实验室操作所得到的原始数据结果;二级数据库则是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的
一级数据库:核酸序列数据库GenBank、EMBL、DDBL及蛋白质数据库PDB
二级数据库:NCBI的RefSeq数据库
4、数据库的Fasta、Flat file和XML格式各有何特点?
(1)FASTA序列格式包括三个部分:(书上没有PPT第二章第19-20页)
1.在注释行的第一列用字符“>”标识,后面是序列的名字和来源;
2.标准的单字符标记的序列;
3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。
提供了从一个窗口到另一个窗口非常方便的拷贝途径,序列中没有数字或其他非字符。
从第二行开始是序列本身,标准核苷酸符号(大小写均可)或氨基酸单字母符号(大写)。
(2)平面文件格式—Flat File
纯文本文件、通用性好、检索复杂,冗余字段较多,大容量数据库难以处理
(3)XML格式(PPT第二章第29、32页)
一个XML文件代表一个嵌套的信息树。树中的每一个节点能包含像一串子节点或者一些属性这样的数据,并且一个XML文件始于根节点。一个XML文件有一个文本,在文本中每一个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似html。
5、GenBank数据库中的GenBank条目包含哪些内容?请结合GenBank中的具体的序列信息加以说明。
GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。
例:
这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。
在某些条目中,标识符可能缩写成两个字母(例如RF 代表reference),某些字段可能还有次级字段。
计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。这些字段提供的信息可以参见网页bi.v/Sitemap/samplerecord.html
序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程。用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。
GenBank 序列格式通常需要改变以适应序列分析软件。
6、蛋白质序列数据库有哪些?
SWISS-PROT、PIR
7、序列比对在什么情况下选择核苷酸序列?在什么情况下选择蛋白质序列?
核苷酸序列:①在确认给定DNA 序列和DNA 数据库中的序列的一致性时②在搜索多态性时③在分析所克隆的cDNA 片段的一致性时
蛋白质序列:由于蛋白质序列比DNA 所含信息多,所以除以上情况外用蛋白质序列
8、请比较同源性、同一性和相似性三个概念。
同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,是质的判断
同一性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例
相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量
9、举例说明何为直系同源,何为旁系同源?
LOCUS name of locus,length and type of
sequence,
classification of organism,data of entry
DEFINITION desicription of entry
ACCESSION
accession number of original source KEYWORDS
key words for cross referencing this entry SOURCE source organism of DNA
10、总结BLAST比对程序家族的主要程序,如何选择?
11、解读BLAST程序的比对结果所代表的含义。
(1)该搜索的详细情况,包括BLAST搜索的类型、所搜索的数据库的描述、查询内容和分类连接(taxonomy reporter)
(2)显示的是数据库中与查询序列相匹配的项的简明图形。每一条彩带表示数据库中与查询序列相匹配的蛋白质或核酸序列,不同颜表示不同高低的得分。
(3)与查询序列相匹配的数据库中的序列列表。每一条序列包括其Score(bits)、E value 及该序列在相应数据库中的链接。
(4)查询序列与目标序列之间的双序列比对情况。Score为位记分分数;Expect为期望值;Positives为相似性分值;Identities为同一性分值;Gaps为空位。
12、如何寻远缘相关的蛋白质?
PSI-BLAST是位点特异性迭代BLAST,用来寻远缘相关的蛋白质序列,对于蛋白质的相似序列的寻比常规blastp更敏感。
PSI-BLAST工具的比对步骤为:
(1)用blastp在目标数据库中进行比对搜索;
(2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵PSSM;
(3)用第二步获得的PSSM矩阵再一次搜索目标数据库;
(4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行2~4步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时,
可以停止比对循环。
13、如何利用BLAST来发现新基因?
(1)用一个已知序列蛋白质开始TBLAST比对,搜索一个DNA数据库;
(2)检查结果:寻与已知蛋白质,相关蛋白质的DNA序列匹配,非显著序列的匹配;(3)进行BLASTX NR或BLASTP NR比对
(4)用你新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因或蛋白质。
14、提供了蛋白质结构的检索和查询服务的数据库主要有哪些?
PDB数据库、DSSP数据库、HSSP数据库SCOP CATH
15、简要说明四个层次的蛋白质结构。
(一)一级结构
蛋白质的一级结构(primary structure)是指多肽链的氨基酸残基的排列顺序。
(二)二级结构
蛋白质二级结构(secondary structure)是指多肽链主链原子借助于氢键沿一维方向排列成具有周期性的结构构象,是多肽链局部的空间结构(构象)主要有α螺旋、β折叠、β转角、无规卷曲等形式
(三)超二级结构、结构域
超二级结构(supersecondary structure)是指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体,同时充当三级结构的构件,基本形式有αα、ββ、βαβ等。
(四)三级结构
三级结构(tertiary structure)是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。
(五)四级结构e
四级结构(quat rnary structure)指在亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。
16、PDB数据库中蛋白质结构信息的存储格式和PDB数据库的检索方法。PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间、分辨率、来源、入库时间、分子式、参考文献、生物来源
等项。
17、PDB收录了哪些实验类型的结构数据?
X射线晶图谱法,核磁共振法,电子显微镜二维晶体三维结构
18、了解蛋白质的结构有何重要意义。
有助于了解打不着如何行使其生物功能,认识蛋白质之间相互作用,对未知通过结构分析进行功能注释,确认功能单位,结构域,可以为遗传操作提供目标为设计新的蛋白质或改造已有蛋白质提供可靠依据,同时为新的药物分子设计提供合理靶分子及结构
19、蛋白质结构家族分类数据库主要有哪些?
SCOP,CATH,FFSP
20、目前蛋白质结构可视化工具主要有哪些?
Weblab viewlite,Swiss-PDBviewer,INSiGHTII,RASMOL,CHIME.Cn3D
21、蛋白质结构分析主要包含哪些方面?
组织层次、结构测定及预测,蛋白质折叠
22、如何进行蛋白质结构比对?有哪些常用的结构比对工具?
首先对两个蛋白质结构定义结构相似部分(或称共同子结构);然后通过多次迭代策略来调整共同子结构,直到出优化的结构比对,即到两个蛋白质空间上最大的重叠部分。DALI方法、CE方法、STRUCTURAL方法、SSM方法、TM-align方法
23、蛋白质结构预测方法有哪些?
蛋白质三级结构的预测方法:同源模建、折叠识别、从头计算法
蛋白质二级结构的预测方法:Chou-Fasman方法(简单的统计方法)、GORⅢ(复杂的统计方法)、PHD和PSIPRED(先进的机器学习方法)
24、同源建模方法预测蛋白质结构的基本步骤有哪些?
1、模板的选择
2、待测序列与模板序列的比对
3、同源模型的建立
4、同源模型精修和评估
25、为什么要进行基因组结构注释?
开展依赖基因组信息的研究工作,在基因组中鉴定各类功能元件,如编码蛋白质的基因、RNA基因、重复序列和假基因,并确定这些元件的生物学功能。包括:
(1)确定蛋白质编码基因及其外显子-内含子结构,并推断其生物学功能。