第十二章 基因组学与医学
第一节 基因组学概念及研究范畴
基因组学概念
基因组(genome):泛指一个细胞或一个生物体的全部遗传信息。在真核生物,基因组是指一套(单倍体)染体DNA。
基因组学(genomics):从基因组水平(分子整体水平)研究遗传的学科。主要是发展和应用DNA制图、测序新技术及计算机程序,分析生命体全部基因组的结构及功能。 
人类基因组计划(HGP)及基因组学概念的提出
人类基因组计划是由美国科学家于1985年率先提出、于1990年正式启动的。旨在为30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染体上的位置,破译人类全部遗传信息 。
美国、英国、法国、德国、日本和中国科学家共同参与了这一价值达30亿美元的研究计划。
基因组学研究的常用方法
(1) 脉冲场凝胶电泳(PFGE) (2) 毛细管电泳 (3) 基因芯片技术(4) 全基因组测序 (5) 生物信息学 (6) 双向电泳 (7) 质谱
基因组学的主要研究内容
结构基因组学(structural genomics):通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。 
功能基因组学(functional genomics):利用结构基因组学提供的信息,进行基因和非基因序列功能的研究。
比较基因组学(comparative genomics):比较不同生物间基因和基因组结构的差异,以增进对基因功能的了解、阐明物种进化关系。
一、基因组及其组织结构
“基因组(genome)”一词是1920年Winkles从GENes和chromosOMEs组成的。泛指一个细胞或一个生物体的全部遗传信息。在真核生物,基因组是指一套(单倍体)染体DNA。
人类基因组是指人的24条染体(22条常染体+2条性染体)内的全部DNA和线粒体DNA,其中蕴藏的信息决定了人类个体发育、生殖、生长、疾病、衰老、死亡等所有生命现象。
真核生物基因组的特点
1. 基因组含有更大的DNA分子,以染体形式储存于细胞核内,体细胞内的基因是双份的。
2. 基因组结构复杂,有多个复制原点,但每个复制子的长度较小。
3. 基因是不连续的。
4. 转录单位一般是单顺反子。即一个基因一种mRNA一种蛋白质,但蛋白质的最终产物可因剪接方式的不同而有差异(如Bcl-x: Bcl-x1;Bcl-xs )
5. 存在重复序列
高度重复序列(>105次)
基因多态性(1)卫星DNA(satellite):
小卫星DNA(可变数目串联重复序列,VNTRs) :重复长度5-50bp,重复次数可变,有高度特异性。
微卫星DNA(MS;又称简单串联重复序列,STRs):重复长度1-4bp,主要为二核苷酸重复序列如(CA)n,存在个体间的高度变化,是DNA指纹的形成基础。
(2)倒位(反向)重复序列
(3)较复杂的重复单位组成的重复顺序
中度重复序列(<105次)
重复片段长100-几千bp,编码细胞需要量大的分子
rRNA基因:重复数百次,可用作遗传标志。
tRNA基因           
组蛋白基因
Alu家族:有3万个成员,平均每6kb就有一个,长度约300bp,因在170bp处有一AluⅠ位点(AG/CT)而得名。具有种的特异性。
KpnⅠ家族:人和灵长类DNA经KpnⅠ酶解后,产生4个片段(1.2, 1.5, 1.8, 1.9kb),被命名为KpnⅠ家族。人类基因组中KpnⅠ序列约在3-6%,散在分布。
单一序列
单拷贝,在基因组中占50-80%,人基因组中约有60-65%的单一序列。
6. 基因类型多样
(1)断裂基因/不连续基因 (2)非剪接基因/连续基因(3)基因家族
  多基因家族(multigene family):亦称基因家族,是指一组具有类似功能,核苷酸序列又有同源性的基因。
  超基因家族(supergene family):由多基因家族及单基因组成的更大的基因家族。成员间有不同程度的同源,但功能并不相似。如Ig超家族。
(4)假基因:在多基因家族中,不产生有功能产物的基因。即序列与有功能的基因相似,但或者不能转录,或者转录后生成无功能的基因产物。用Ψ表示。假基因往往缺少正常基因的内含子,两侧有顺向重复序列。
(5)基因重叠
7、自私DNA(selfish DNA):指非编码序列,包括分散的高度、中度重复序列,内含子和间隔序列等。有些自私DNA通过转录mRNA,生成cDNA,再转位插入到基因组,有人称之为寄生DNA(parasite DNA)。
但自私DNA并非毫无功能,可参与基因表达调控等。
8. DNA序列组织的可变性(基因组不稳定性)
    (1) 基因重排
    (2) 跳动(跃)基因(转座子):可在DNA分子间进行转移的DNA片段。通常只是把一个新合成的复本插入到另外的位置上,转移后仍保留原来位置上的DNA序列。
结构基因组学
物理制图 遗传制图 基因组DNA序列测定 创建计算机分析管理系统
基因组作图
遗传信息在染体上,但染体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。
根据使用的标志和手段不同,有4种作图类型:遗传图谱、物理图谱、序列图谱、基因图谱。
人类基因组作图
1、遗传图(genetic mapping)/连锁图(linkage map)
通过计算连锁的遗传标志之间的重组频率,确定连锁标志在染体上的线性排列顺序及其相对遗传距离
距离单位:厘摩(cM),1cM表示每次减数分裂的重组频率为1%
第一代DNA多态性标志:
限制性片段长度多态性(RFLPs)、随机引物扩增多态性 (RAPD) 、扩增片段长度多态性(AFLP)
第二代DNA标志:
可变数目串联重复序列(VNTRs;又称小卫星)、短串联重复序列(STRs;又称微卫星, MS)
第三代DNA标志:单核苷酸多态性(SNP)
2、物理作图(physical mapping):
确定遗传标志间的物理距离,一般用bp/kb/Mb表示。
1cM的遗传距离大致上相当于1Mb的物理距离。
(1)荧光原位杂交图(FISH map)
(2)限制性酶切图(restriction map) :
选用合适的限制性核酸内切酶对基因组DNA或部分基因组DNA进行酶切,获得以酶切位点为标记的物理图。
(3)辐射杂交细胞图(RH map)
(4)连续克隆系(clone contig)图:是最重要的一种。
序列标签位点(sequence tagged sites, STSs): 在染体上定位明确,而且可用PCR扩增的单拷贝序列,通常为200-500bp。
二、大规模测定基因组DNA序列
(Large Scale DNA Sequencing)
1. 基于BAC连续克隆系的测序 2. 全基因组的“鸟法”(shotgun)测序 3. cDNA测序
三、DNA序列的生物信息学分析(Bioinformatics Analysis of DNA Sequences)
1、遗传图谱(genetic map) /连锁图谱(linkage map)
      指基因或DNA标志在染体上的相对位置与遗传距离。它以具有多态性的遗传标记为“路标”,以重组频率为图距的基因组图。 遗传图谱的建立为基因识别和完成基因定位创造了条件。
遗传多态性:在一个遗传位点上具有一个以上的等位基因,在体中的出现频率皆高于1%
遗传标记:等位基因、RFLP、MS、SNP等
遗传距离:在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1“厘摩(centi-Morgan,cM) ”
限制性片段长度多态性(restriction fragment length polymorphisms, RFLPs):用一种或几
种限制性内切酶切割基因组DNA,用探针杂交并放射自显影。由于DNA酶切位点的变异所造成的“能切”与“不能切”两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性。
数量可变串联重复(VNTR) /小卫星
短串联重复(STR)/微卫星(MS):使遗传图的精度提高;可作为物理图谱的标志,促进了遗传图谱与物理图谱的整合。
  单核苷酸多态性(Single Nucleotide Polymorphisms, SNPs) 不同个体间在基因水平上的单核苷酸变异。平均每500~1000bp出现一个碱基差异,如果一个碱基位置发生的变异在1%以上的人中存在,这个位点就被定义为SNP位点。位于编码区的SNP称为cSNP。2个无关个体间有300万SNPs.
2、物理图谱
      指DNA序列上各遗传标志间的实际距离,是把遗传图谱中克隆上的DNA片段按实际的物理位置进行排序所构建的图谱。距离单位为bp/kb/Mb。
物理图谱反映的是DNA序列上两点之间的实际距离,而遗传图谱则反映这两点之间的连锁关系。
在DNA交换频繁的区域,两个物理位置相距很近的基因或DNA片段可能具有较大的遗传距离,反之亦然。
染体显带技术:
通过各种染法,以染体上显示的深浅不同的带型确定DNA序列分布和位置,可区分107bp范围。
荧光原位杂交图(fluorescent in situ hybridization map,FISH map) :用不同波长荧光标记的各种DNA序列(探针),与染体上的互补序列杂交而不破坏染体的整体形态,显微镜下观察、辨认荧光标记在染体上的定位并绘制图谱。
辐射杂交细胞图(radiation hybrid map,RH):利用X射线照射人细胞,使染体随机断裂,然后与啮齿动物细胞杂交克隆,人的染体片段便被整合到啮齿动物染体上。两个相邻基因或DNA标志的距离越近,越可能出现在同一片段,进入同一杂交细胞。通过识别、定
位技术和统计学分析,可计算人DNA标志的连锁关系及其在染体上的排列。
Huds on TJ等构建的相隔 199kb含有15086个STS图谱标志着人类基因组计划的物理图谱已初步完成。