中度重复序列简介
1拼音
2注解
1拼音
zhōng dù zhòng fù xù liè
2注解
中度重复序列大致指在真核基因组中重复数十至数万(<105)次的重复顺序。其复性速度快于单拷贝顺序,但慢于高度重复顺序。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。依据重复顺序的长度,中度重复顺序可分为两种类型。
(1)短分散片段(short interspersed repeated segments, SINES)这类重复顺序的平均长度约为300bp(〈500bp),它们与平均长度约为1000bp的单拷贝顺序间隔排列。拷贝数可达10万左右。如Alu家族,Hinf家族等属于这种类型的中度重复序列。
(2)长分散片段(Long interspersed repeated segments, LINES)这类重复顺序的长度大于1000bp,平均长度为35005000bp,它们与平均长度为13000bp(个别长几万bp)的单拷贝顺序间隔排列。也有的实验显示人基因组中所有LINES之间的平均距离为2.2kb,拷贝数一般在1万左右,如KpnⅠ家族等。中度重复顺序在基因组中所占比例在不同种属之间差异很大,一般约占1040%,在人约为12%。这些顺序大多不编码蛋白质。这些非编码的中度重复顺序的功能可能类似于高度重复顺序。在结构基因之间,基因簇中,以及内含子内都可以见到这些短的和长的中度重复顺序。按本文的分类原则有些中度重复顺序则是编码蛋白质或rRNA的结构基因,如HLA基因,rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因等。中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。下面介绍几种典型的中度重复顺序。
Alu家族:Alu家族是哺乳动物包括人基因组中含量最丰富的一种中度重复顺序家族,在单倍体人基因组中重复达30万50万次,约占人基因组的36%。Alu家族每个成员的长度约300bp,由于每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT)从而将其切成长130和170bp的两段,因而定名为Alu序列(或Alu家族)。Alu序列分散在整个人体或其他哺乳动物基因组中,在间隔DNA,内含子中都发现有Alu序列,平均每5kbDNA就有一个Alu顺序。
已建立的基因组中无例外地含有Alu顺序。Alu顺序具有种的特异性,人的Alu顺序制备的探针只能用于检测人的基因组中的Alu序列。由于在大多数的含有人的DNA的克隆中都含有Alu顺序,因此,可以这样认为,用人的Alu序列制备的探针与要筛选的克隆杂交,阳性者即为含有人DNA克隆,阴性者不含有人DNA。序列分析表明人类Alu顺序是由两个约130bp的正向重复构成的二聚体,而在第二个单体中有一个31bp的插入序列,该插入序列在Alu家族的不同成员之间核苷酸顺序相似但不相同。每个Alu顺序两侧为620bp的正向重复顺序,不同的Alu成员的侧翼重复顺序也各不相同。Alu序列的5'端比较保守,但富含脱氧腺苷酸残基的3'端在不同的Alu成员中是有变化的。在相近的生物体中Alu家族在结构上存在相似性,一般认为灵长类基因组中的Alu顺序多为由两个130bp的正向重复组成的二聚体,而啮类动物则为由一个130bp左右的DNA片段组成的单体。Alu序列在不同的哺乳动物之间存在着一定的相似性,但其序列相差较大,不会产生交叉杂交。Alu顺序广泛散布于整个基因组的原因可能是由于Alu顺序可由RNA聚合酶转录成RNA分子,再经反转录酶的作用形成cDNA,然后重新插入基因组所致。也有人认为Alu序列两侧存在着短的重复顺序,使得Alu顺序很象转座子,因此推测Alu顺序可能也是能够移动的。这可能是它们在整个基因组中含量如此丰富,颁布如此广泛的原因之一。Alu家族的功能是多方面的,由于在许多核内不均一RNA(hnRNA)中含有大
量的Alu顺序,而且,Alu顺序含有与某些真核基因内含子剪接接头相似的序列,因而,Alu顺序可能参与hnRNA的加工与成熟。Alu序列在人基因组中不寻常地大量存在,提示它与遗传重组及染体不稳定性有关。最近发现在人的组织细胞中存在自然发生的染体外双链环状DAN,被称为人类质粒(human pla *** id),而这些质粒又毫无例外地含有Alu顺序。还有研究表明,Alu顺序中的某些区段有形成ZDNA的能力。另外,Alu顺序可能具有转录调节作用。
KpnⅠ家族:KpnⅠ家族是中度重复顺序中仅次于Alu家族的第二大家族。用限制性内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳谱上可以看到4个不同长度的片段,分别为1.2,1.5,1.8和1.9kb,这就是所谓的KpnⅠ家族。KpnⅠ家族成员顺序比Alu家族更长(如人KpnⅠ顺序长6.4kb),而且更加不均一,呈散在分布,属于中度重复顺序的长分散片段型。尽管不同长度类型的KpnⅠ家族(称为亚类,subfamily)之间同源性比较小,不能互相杂交,但它们的3'端有广泛的同源性。KpnⅠ家族的拷贝数约为3000 ̄4800个,占人体基因组的1%,与散在分布的Alu家族相似,KpnⅠ家族中至少有一部份也是通过KpnⅠ顺序的RNA转录产物的cDNA拷贝的重新插入到人基因组DNA中而产生的。
unequal
Hinf家族:这一家族以319bp长度的串联重复存在于人体基因组中。用限制性内切酶HinfⅠ消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50 100个拷贝,分散在不同的区域。319bp单位可以再分成两个亚单位,分别为172bp和147bp,它们之间有70%的同源性。
多聚dT-dG家族:这一家族的基本单位是dT-dG双核苷酸,多个dT-dG双核苷酸串联重复在一起,分散于人体基因组中。已经发现,这个家族的一个成员位于人类δ和β珠蛋白基因之间,含有17个dT-dG双核苷酸组成的串联重复顺序。在人基因组中,dT-dG交替顺序达106拷贝,这些顺序的平均长度为40bp。人们推测,这样一个短的串联重复顺序可能是基因转变(gene conversion)或不等交换(unequal crossingover)的识别信号。另外,这些嘌呤和嘧啶的交替顺序有助于ZDNA的形成,在基因调节中可能起着重要的作用。中度重复顺序除了包括以上非编码区域外,许多编码区如rRNA基因,tRNA基因,组蛋白基因等在基因组中也多次重复,属于中度重复顺序。
rRNA基因:在原核生物如大肠杆菌基因组中,rRNA基因一共是七套;在真核生物中rRNA基因的重复次数更多。在真核生物基因组中18S和28S,rRNA基因是在同一转录单位中,低等的
真核生物如酵母中,5SrRNA也和18S,28SrRNA在同一转录单位中;而在高等生物中,5SrRNA是单独转录的,而且其在基因组中的重复次数高于18S和28S基因。和一般的中度重复顺序不一样,各重复单位中的rRNA基因都是相同的。rRNA基因通常集中成簇存在,而不是分散于基因组中,这样的区域称为rDNA,如染体的核仁组织区(nucleolus anizer region)即为rDNA区。18S和28SrRNA基因构成一个转录单位。从转录单位上转录下来的rRNA前体经过酶切成为18S和28SrRNA。在哺乳动物和两栖动物中,18S和28SrRNA之间一同被转录下来的间隔区经过加工成为5.8SrRNA(在大肠杆菌中该区含有tRNA序列)。rRNA前体的其它部份被降解成核苷酸。真核生物中每个转录单位约长78kb(在哺乳动物中长13kb),其中编码rRNA的部份占7080%(哺乳动物中只占50%左右)。一个rRNA基因簇(rDNA簇)含有许多转录单位,转录单位之间为不转录的间隔区,该间隔区由21100bp片段组成的类似卫星DNA的串联重复顺序。转录单位和不转录的间隔区构成一个rDNA重复单位。由于不转录的间隔区中类似卫星DNA的串联重复次数不一样,因此,在不同生物及同种生物的不同rDNA重复单位之间不转录间隔区的长短相差甚大。非洲爪蟾的rDNA簇中,由类似卫星DNA的重复序列交替排列构成。5'端为一固定长度的独特顺序;后面的重复区域是由97bp的重复单位组成;另外两个重复区域是由60bp或81bp的重复单位构成;由于每个重复
区域中重复单位的重复次数在不同的rDNA重复单位中不一样,因而造成不同的不转录间隔区的长短不一。另外两个固定长度的区域称为Bam岛(因为这两个片段的分离是采用BamHI酶消化制备的)。Bam岛的后半部与转录单位前面的序列(含有启动子)相似;另外在60/81bp的重复区域中也有类似的序列。根据这些结构特点,有人认为不转录的间隔区可能在转录单位的转录起始中起着重要作用。rDNA的重复单位在许多动物的卵子形成过程中进行大量复制扩增,如爪蟾在扩增前有rDNA重复单位500个,在从卵母细胞前身(oocyteprecursor)发展到卵母细胞过程中(3周时间),rDNA的重复单位可扩增400倍,每个细胞核的核仁数增加到几百个。扩增rDNA的过程是采用滚环式复制方式在核仁区进行的,扩增的DNA不纳入到染体中,而是包含在核区。卵母细胞成熟后,大量的rDNA由于失去了存在的意义而逐渐降解。在卵子形成的过程中rDNA大量扩增的目的,就是为了产生大量的rRNA,组装成核糖体,用于合成大量的蛋白质,以满足受精后发育的需要。在大多数真核细胞中5SrRNA基因和18S,28SrRNA基因不属于一个转录单位。5SrRNA基因在基因组中亦呈串联重复排列成基因簇。其结构在非洲爪蟾中研究得最为清楚。在爪蟾体细胞中5SrRNA基因约有500拷贝,而在卵细胞中5S基因可重复20000多次。这大概是为了和卵细胞中大量扩增的28S和18S基因相统一。在爪蟾中发现有几种5SrRNA基因。最主要的一种其结
构形式与18S、28S基因相似,即5S基因与非转录间隔区相间排列,组成一个重复单位。每个重复单位的5'端是含有AT丰富区的一段49bp长的GC丰富区;下面跟是120bp的5SrRNA基因;后面又是一段 并不转录的序列,而且与前面的5S基因比较有9个点突变,因此称为这段基因为假基因(pseudo gene)。尽管假基因不被转录,但在5S基因簇中总是有等量的5S基因和它的假基因。