逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装。
单核苷酸多态性(SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染体上的相对位置线性而系统地排列出来。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
比较基因组学:全基因组核苷酸序列的整体比较的研究。特点是在整个基因组的层次上比较基因组的大小及基因数目、位置、顺序、特定基因的缺失等。
环境基因组学:研究基因多态性与环境之间的关系,建立环境反应基因多态性的目录,确定引起人类疾病的环境因素的科学。
宏基因组是特定环境全部生物遗传物质总和,决定生物体生命现象。
转录组即一个活细胞所能转录出来的所有mRNA。研究转录组的一个重要方法就是利用DNA芯片技术检测有机体基因组中基因的表达。而研究生物细胞中转录组的发生和变化规律的科学就称为转录组学。
蛋白质组学:研究不同时相细胞内蛋白质的变化,揭示正常和疾病状态下,蛋白质表达的规律,从而研究疾病发生机理并发现新药。
蛋白组:基因组表达的全部蛋白质,是一个动态的概念,指的是某种细胞或组织中,基因组表达的所有蛋白质。
代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质,糖,氨基酸等,可以揭示取样时该细胞的生理状态。代谢物行为更密切地反映出细胞所处的环境,该环境依赖于细胞所摄取的营养状况,所接触的药物和污染物以及其它影响细胞健康的外在因子情况。
代谢物组学是在后基因组学时代兴起的一门跨领域学科,其主要目标是定量的研究生命体对外界刺激、病理生理变化、以及本身基因突变而产生的其体内代谢物水平的多元动态反应。代谢组学通过现代化学的仪器分析技术测机体整个代谢产物谱的变化,并通过多元统计分析方法研究整体的生物学功能状况。
一个细胞内,基因、RNA、代谢物与蛋白质之间存在着大量的相互作用,构成细胞的相互作用组,及信号转导网络或调控网络。这些令人无法想象的复杂图谱,用系统生物学的术语来描述就是相互作用组学。
蛋白质相互作用组学研究的重要方法:酵母双杂交、噬茵体展示技术、等离子共振技术、荧光能量转移技术、蛋白质阵列技术、免疫共沉淀技术、pull-down技术等。
dna多态性
结构基因组学主要目的是试图在生物体的整体水平上(如全基因组、全细胞或完整的生物体)测定出(以实验为主、包括理论预测)全部蛋白质分子、蛋白质-蛋白质、蛋白质-核酸、蛋白质-多糖、蛋白质-蛋白质-核酸-多糖、蛋白质与其他生物分子复合体的精细三维结构,以获得一幅完整的、能够在细胞中定位以及在各种生物学代谢途径、生理途径、信号传导途径中全部蛋白质在原子水平的三维结构全息图。
生物信息学的主要研究内容:生物学数据的收集、存储、管理与提供,基因组序列信息的提取和分析,功能基因组相关信息分析,生物大分子结构模拟和药物设计,生物信息分析的技术与方法研究,应用与发展研究。
计算生物学/生物信息学的主要理论方法:基于数据挖掘(知识发现)的方法,基于模拟分析的方法。
系统生物学 是一个试图整合不同层次信息以理解生物系统如何行使功能的学术领域。通过研
究某生物系统各不同部分之间的相互关系和相互作用(例如,与细胞信号传导,代谢通路,细胞器,细胞,生理系统与生物等相关的基因和蛋白网络),系统生物学期望最终能够建立整个系统的可理解模型。
合成生物学是一门建立在系统生物学、生物信息学等学科基础之上,并以基因组技术为核心的现代生物科学。
生物信息学常用方法:Database Search,Multiple Sequence Alignment,Algorithms。
生物学数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性
生物学数据库几个明显的特征:(1)数据库的更新速度不断加快,数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用(6)先进的软硬件配置。
一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的二次数据库。
分子生物信息数据库,归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。
基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。
序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。
国际著名的生物信息中心
NCBI      National Center for Biotechnology Information (US)
EBI        European Bioinformatics Institute (EU)
HGMP    Human Genome Mapping Project Resource Centre  (UK)
ExPASy    Expert of Protein Analysis System (Switzerland )
国际上“权威”的核酸序列数据库:欧洲分子生物学实验室的EMBL ,美国生物技术信息中心的GenBank  ,日本遗传研究所的DDBJ。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNARNA片段。
蛋白质序列数据库:SWISS-PROT(欧洲), PIR(美国)
蛋白质结构数据库:PDB(protein data bank),美国,目前最主要的蛋白质分子结构数据库
蛋白质结构分类数据库:SCOP (Structural Classification of Proteins),英国医学研究委员会分子生物学实验室和蛋白质工程中心,CATH( Class, Architecture, Topology, Homology) 英国伦敦大学
基因组信息二级数据库:TransFac(真核生物基因转录调控因子数据库),德国
蛋白质序列二级数据库:Prosite(蛋白质序列功能位点数据库),瑞典
蛋白质二级结构数据库:DSSP (Definition of Secondary Structure of Proteins)蛋白质二级结构构象参数数据库,FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库,HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库
酶的分类数据库Enzyme
不同数据库的序列格式:1 GenBank中DNA序列格式,2 EMBL序列格式,3 SwissProt序列格式,4 FASTA序列格式,5 NBRF序列格式,6 Intelligenetics序列格式,7 GCG序列格式,8 PIR/CODATA序列格式,9 Plain/ASCII.Staden序列格式,10 ASN.1序列格式,11 GDE格式。
冗余数据至少可能导致以下3个潜在的错误:如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大;序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的;如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离。
序列数据的偏差或人为假象主要来自实验过程,这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面:载体序列污染:在测序列等实验过程中,载体序列可能造成污染,致使序列记录数据中包含了载体序列;异源序列污染:有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染;序列的重排和缺失重复因子污染:cDNA克隆方法有时会受到逆转录因子(如Alus)的影响;测序误差和自然多态性:测序过程存在一定的误差概率。解决方法:选择合适的数据库;一个聪明的略策是用可能污染数据记录的序列(如载体)去估计误差程度;一些去除污染的专门软件系统已被研制出来,如EBI网站便提供了去除载体污染的在线服务。
BLAST 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。
一个序列模体是一段局部保守的区域或由一组序列共有的短的序列模式。
模体指用于预测分子功能、结构特征或家族关系的模式。
3 main methods of alignment:Automatic,Manual,Combined。
状态空间搜索,就是将问题求解过程表现为从初始状态到目标状态寻这个路径的过程。
常用的状态空间搜索深度优先广度优先。广度优先是从初始状态一层一层向下,直到到目标为止。深度优先是按照一定的顺序前查完一个分支,再查另一个分支,以至到目标为止。
系统发生学:(Phylogenetic systematics系统分类学、cladistics遗传分类学 ) 是基于生物进化史的生物分类方法。