生物信息学考题(2012版)
一、填空题(共10分,每空一分)
1、美国政府于1990年10月启动耗资30亿美元的15年研究计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定,这就是被称为生命科学“登月计划”的人类基因组计划。
2、生物信息学的研究目标:以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩瀚如海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。
3、随着生物信息学的诞生及应用,今后生物学研究项目的起点将是理论的,一位科学家将从理论推测开始,然后转向试验去追踪或检验该假设。
4、生物信息学作为一门交叉学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。
5、人类基因组计划、“曼哈顿原子计划”和“登月计划”并称为20世纪的三大著名计划,中国在1999年承担了1%的研究任务,即对第3号染体上3000万碱基对的测定。
6、人类基因组的主要任务是:人类基因组以及一些模式生物(细菌、酵母、线虫、果蝇等)基因组作图、测序和基因识别。
二、是非题(共10分,每小题1分)
1、生物学就是实验科学,所有的研究结论从实验中来,于实验中得到验证。(错)
2、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究手段。(对)
3、两个蛋白质序列相似性超过30%就是同源蛋白。(错)
4、蛋白质序列相似性指一级序列中氨基酸残基相同。(错)
5、蛋白质序列相似性指氨基酸残基具有相似特性:侧链基团大小电荷性、疏水性等相同。(对)
6、核酸序列相似性指序列中相同碱基所占的比例。(对)
7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。(错)
8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。(对)
9、相似性是指一种很直接的数量关系,无需实验验证。(错)
10、相似性是指一种很直接的数量关系,也需实验验证。(对)
11、不同种属间的同源序列称为直向同源序列。(对)
12、不同种属间的同源序列称为共生同源序列。(错)
13、所谓局部比对,即分析两个序列是否有局部序列的相似。(错)
14、所谓整体比对,即出两个序列全长的最优比对结果。(对)
15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。(对)
16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。(错)
三、选择题(共20分,每小题2分)
1、在Genbank数据库中,生物学工作者向其提交数据有两种方式,其中用于提交少量数据
的是基于Web方式的(A)。
A、BankIt
B、Sequin
C、Version
D、Matrix
2、在Genbank数据库中,生物学工作者向其提交数据有两种方式,其中用于提交大量序列或较复杂序列的独立程序是(B)。
A、BankIt
B、Sequin
C、Version
D、Matrix
3、(B)是欧洲分子生物学网EMBLnet的主要检索工具,也是一个开放的数据查询系统。
A、Query
B、SRS
C、PDB
D、PIR
4、下列哪个数据库属于生物大分子结构数据库?(B)
A、Genbank
B、PDB
C、NCBI
D、DDBJ
5、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于蛋白质序列数据库?(D)
A、PIR
B、Uniprot
C、SWISS-PROT
D、OMIM
6、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于核酸列数据库?(B)
A、Genbank
B、GenPept
C、EMBL
D、DDBJ
7、在Genbank中使用的序列文件格式为(A),是一种最简单的格式,第一行以“>”表示一个先序列的开始。
A、FASTA
B、GBFF
C、BLAST
D、ORIGIN
8、(A)是计算机注释的蛋白质序列数据库,也是SWISS-PROT蛋白质序列数据库的辅助数据库,包含收录到SWISS-PROT数据库的EMBL中所有CDS的翻译序列。
A、TrEMBL
B、GBFF
C、Uniprot
D、PIR
9、下列哪个不属于取代矩阵?(D)
A、突变数据矩阵(Mutation Data Matrix)
B、可接受点突变数据矩阵(Point Accepted Mutation Matrix)
C、模块替换矩阵(Blocks Substitution Matrix)
D、相关几率矩阵(relatedness Matrix)
10、下列哪个与其他三个不属于同一类型的取代矩阵?(A)
A、PAM250
B、BLOSUM30
C、BLOSUM62
D、BLOSUM90
11、目前使用最广的多序列比对程序为(B),是一种逐渐比对方法。
A、BLAST
B、CLUSTALW
C、FASTA
D、DNAStar
12、生物信息学识别基因的两个主要途径:基因组外显子识别和EST策略。其中人类基因组(A)序列均可用前者预测,但基因的完整预测准确性仅为20%。
A、90%
B、50%
C、70%
D、30%
13、在蛋白质功能预测中,通过比对数据库相似性序列确定功能的原则是:超过(C)个氨基酸的区段至少有25%相同为显著匹配。
A、120
B、100
C、80
D、60
14、(C)是NCBI提供的集成检索工具,通过一次检索可查询NCBI多个子数据库中的相关信息。
A、Retrieve
B、SRS
C、Entrez
D、PIR
15、NCBI上提供检索用的三维结构数据库是下列哪个数据库?(C)
A、EMBL
B、Chime
C、MMDB
D、DDBJ
四、名词解释(共20分,每题4分)
1、GenBank
GenBank是美国国立图书馆于1979-1982年设立的具有基因递交、查询等功能的数据库。
包括检索系统(Entrez),序列递交(Web,Sequin),Blast。
2、iProClass
PIR数据库的多数据的一个联合检索程序,把各个数据库连接起来。
3、UTR(untranslated region)
mRNA分子上不翻译成蛋白质的序列。分为5'-UTR和3'-UTR。
4、CpG岛
常位于真核生物基因转录起始位点,GC含量>50%,长度>200bp,可以用于基因的预测。
5、分子钟
保守蛋白和基因中氨基酸位点或核酸位点随着时间的推移而以几乎一定的比例相互随机变化着;即氨基酸或核酸在单位时间以相同的速度进行置换,与进化时间成比例。
6、NCBI
依托于美国国立卫生研究院的生物信息学网站数据库,总括了GenBank,PubMed,Genome,Structure,Books,3D domains,Gene,Genome Project,SNP等几十种数据库。其搜索引擎为Entrez。主要是收集一次性数据,然后有部分二级数据。
7、Vector NTI8
一个载体设计的分子生物学软件包,可以直接从NCBI等数据库里下载程序,进行载体序列屏蔽、电子酶切等多种功能。
8、GT-AG结构
外显子-内含子接头。每个外显子和内含子接头区都有一段高度保守的一致序列(consensus sequence),即内含子5’末端大多数是GT开始,3’末端大多是AG结束,称为GT-AG法则。是普遍存在于真核基因中RNA剪接的识别信号。
9、最长ORF法
用最长ORF法来识别原核基因。如果能够到一个比较长的序列,其相应的密码子序列不含终止密码子,那么这段序列可能就是编码序列。扫描给的DNA序列,在三个不同的阅读框中寻较长的ORF,当遇到终止密码子后,回头寻起始密码子,以确定完整的编码区域。
10、化学蛋白质组学
化学蛋白组学是一个利用体内和体外化学探针进行探索蛋白质功能的化学生物学的分支学科。其目标是通过直接可见的蛋白质与其配体直接的反应来确定蛋白质的功能和作用机制。因为大多数蛋白质的功能都依赖于与小分子配体与靶蛋白结合的过程,利用能够与靶蛋白特异作用的化学小分子来扰动和探测蛋白质组,有可能在蛋白质组的整体水平上揭示我们感兴趣的特定蛋白质的功能以及它们与化学小分子的相互作用,以达到蛋白质组学的研究目的。
11、(08级)DNAStar
综合性序列分析软件,全面的生物医学软件。用作DNA和蛋白质序列分析、重叠拼接和基因工程管理,包含37个模块:可视化和序列编辑,序列集结和SNP发现,序列组合,基因查,蛋白质结构分析预测。
12、(08级)ORFfinder
一个图形的序列分析工具,分析并到序列的ORF区;使用的是标准的或其他特殊的遗传密码子列出所有可能的ORF区,并推出AA序列。
13、(08级)蛋白质工程
在基因工程的基础上,结合蛋白质结晶性、计算机辅助设计和蛋白质化学等诸多学科知识,通过对基因的人工定向改造,对蛋白质修饰改造,以生产出满足人类需要的新型蛋白质技术。
五、问答题(共40分,每小题10分)
1、现代生物信息学的基本定义是什么?它的重要性主要体现在哪两个方面?
是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息方法采集、存储、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息、以帮助了解生物学和遗传学信息的科学。
重要性体现在两个方面:
一、基因组学、蛋白质组学、生物芯片等生命科学前沿研究的直接推动力,对农学、医药、食品和环境等领域产生巨大影响;
二、倡导的全球范围的资源共享对科学发展及人类社会发展有深远影响。
2、Entrez集成于哪个数据库平台?主要功能是什么?在应用中可以访问哪些子数据库(共14个,请列举5个以上)?
Entrez集成于NCBI数据库平台。主要为各个数据库的检索功能。
可访问的子数据库有:PubMed,Nucleotide,EST,3D Structure,Genome等。
3、列表说明三大核酸数据库名称、数据维护机构、依托的相关政府部门及各自独特的检索平台名称。
数据库名称数据维护机构依托的政府部门独特的检索平台GenBank NCBI NIH Entrez
EMBL EBI EMBL SRS
DDBJ CIB NIG getentry
4、什么叫BLAST?其分为哪些类型?
BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。共包括五种类型:
程序名搜索序列数据库内容备注
blastp Protein Protein比较氨基酸序列与蛋白质
数据库利用取代矩阵寻较远的关系,进行SEG过滤
blastn Nucleotide Nucleotide比较核酸序列与核酸数据寻较高分值的匹配,对
库较远的关系不太适用
blastx Nucleotide Protein比较核酸序列理论上的六
个读码框的所有转换结果
和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列
tblastn Protein Nucleotide比较蛋白质序列和核酸序
列数据库,动态转换为六个
读码框的结果用于寻数据库中没有标注的编码区,可转译数据库序列
tblastx Nucleotide Nucleotide比较核酸序列和核酸序列
数据库,经过两次动态转换
为六个读码框的结果转译搜索序列和数据库序列
5、美国国家生物技术中心(NCBI)成立于1988年,其发展领域主要包括哪些?具有哪些主要的功能?
依托于美国国立卫生研究院的生物信息学网站数据库,总括了GenBank,PubMed,Genome,Structure,Books,3D domains,Gene,Genome Project,SNP等几十种数据库。其搜索引擎为Entrez。主要是收集一次性数据,然后有部分二级数据。
核酸结果查询平台
6、目前对核酸序列分析中用于基因识别或ORF预测的基本规律或方法有哪些?试简要说明其特点。(提示:如最长ORF法)
(1)基于特征信号的识别
真核基因外显子(编码区)具有一些特殊的序列信号,如内部的外显子被剪切接位点和给体位点所界定,5’端的外显子一定是在核心启动子的下游,而3’端外显子的下游包含多聚A信号和终止编码。
(2)基于统计度量的方法
主要包括:密码子使用倾向,双联密码子统计度量,核苷酸周期性分析,基因组中等值区(irochore)的分析等。
(3)用最长ORF法来识别原核基因
如果能够到一个比较长的序列,其相应的密码子序列不含终止密码子,那么这段序列可能就是编码序列。扫描给的DNA序列,在三个不同的阅读框中寻较长的ORF,当遇到终止密码子后,回头寻起始密码子,以确定完整的编码区域。
(4)用CpG岛来预测真核生物的基因起始
CpG岛是基因末端富含双核苷酸“CG”的区域,通常位于真核生物管家基因的调控区,原核生物DNA上也存在。
注:
一些缩写的含义:
OMIM:(0nline Mendelian Inheritance in Man)“在线《人类孟德尔遗传》”,人类基因和遗传紊乱的数据库。