SNP
SNP,念法为〔snIp〕,全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记,其数量很多,多态性丰富。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2:1[1] 。SNP 在CG 序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于  1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×10E6 个。因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。
单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。
理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的。这种变异可能是转换(C T,在其互补链上则为G A),也可能是颠换(C A,G T,C G,A T)。转换的发生率总是明显高于其它几种变异,具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。Wang等的研究也证明了这一点。转换的几率之所以高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(coding SNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。
从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。
先形成的SNP在人中常有更高的频率,后形成的SNP所占的比率较低。各地各民族人中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有85%应是共通的。
2、 SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。
第一代遗传标志:限制性片段长度多态性RFLP5[];第二代遗传标记为微卫星标志MS,又称短串联重复STR,是指DNA基因组中小于10个核昔酸的简单重复序列,在染体上分布较均匀,信息量明显高于RFPL成为遗传连锁分析的有用标志6[]。同时MS也成为物理图谱的标志,从而促进了遗传图谱与物理图谱的整合7[];第三代遗传标志:单核昔酸多态性标志s砷,主要是指在基因组水平上由单个核昔酸的变异所引起的DNA序列多态性。
目前人类疾病基因定位的理论策略主要包括以下三种分析方法:基于连锁(Linkgae)的分析方法、基于关联(Associatino)或连锁不平衡LD伍nikageDiseuqiilbrium)的分析方法和基因芯片表达数据分析方法。这几种方法都是非常有用的工具,并且在搜寻潜在复杂性状的基因时,三者可以相互补充。
基因定位的连锁分析方法一般是以有关遗传标志为“路标”,以被定位基因与其连锁基因的重组率为“遗传学距离”,进行基因定位。连锁分析考察同一染体上两个基因座的物理距离是否相临近。两个连锁的(物理上临近的)基因座上等位基因更易于一起分离,即它们一起作为一个单位由父母传递给后代,这种现象偏离了自由组合的孟德尔第二定律。人们认为,已知的标记系统和待推定的疾病基因座之间的连锁证据是此疾病由一种遗传机制造成的最有力的统计证据。连锁分析仅涉及到基因座的位置,用位置来定位基因,而不考虑此基因的生化功能。这种方法称为“定位克隆”(Positionaleloning)[“]。一个家庭中父亲(母亲)的两个基
因座上等位基因由于连锁而共同分离的情况可能与另一个家庭中发生的分离情况不同。由连
锁而发生的共分离现象只能在家庭内部才可以观察到,因此,考察连锁必须有家庭数据。连锁分析方法主要分为基于模型的参数分析法,及与模型无关的非参数分析法。基于模型的参数分析
法如对数优势记分法,在分析前要已知所研究性状的遗传模式、等位基因的数目及每种基因型的外显率,分析中仅仅未知的变量是重组率夕。非参数方法中常是通过测量家系中两个患病或两个非患病个体或一个患者及一个非患者标记基因的相似程度来判断致病基因与标记基因是否连锁,这种相似或相异程度常用同胞或亲属对间共享mo(IdenticalByoescent)或BIs(IdenticalBystate)的概率来评价,主要的非参数方法有患病同胞对法和患病家系成员法。
关联研究和连锁不平衡分析是一种基于观察的标记位点等位基因与致病基因位点间存在连锁不平衡LD的分析法。连锁不平衡表示两位点是紧密连锁的,两位点越靠近则LD程度越强。因此,标记位点与致病基因越近、突变率越低、杂合度越高,用标记检出致病基因位点的机率就越高。主要的关联分析方法有体关联分析和以家系为基础的连锁不平衡分析。传统的病例一对照研究是基于体而非家系的疾病关联分析,它通过随机选择病例和对照,然后比较其在标记等位基因和基因型频率上的差异来说明位点与疾病的关联性。其缺点是:阳性结果可能由混杂因素造成,如不同分层人(straitfidePpoulaitno)s混杂在一起造成的虚假联系。为了克服不同分层人混杂的影响,相应产生了基于家庭的病例一对照研究方法。近年来有人提倡用患者核心家系成员(双亲及同胞)作为相关分析对照组,如单倍型相对风险率分析HRR(HpalotyPeRelative瓦Sk)[`2]及传递/连锁不平衡分析ToT(TransmissionoisequilibriumTe)st【`'】等,
其中较受推崇的是TDT。
连锁分析与关联分析在鉴定复杂性状基因上有一定的局限性,用这些方法很难发现大量相关基因的交互作用。而基因芯片表达数据,一份基因芯片表达数据通常包含上千个基因的表达水平,因此包含了基因间的相互影响的大量的生物信息。
基因芯片技术是90年代的重大科技进展之一,既有重要的基础研究价值,又有明显的产业化前景。基因芯片(gneechip)也叫DNA芯片或DNA微阵列。采用原位合成或显微打印技术,将大量的DNA探针固化于硅片等支持物表面,产生二维DNA探针阵列,然后与标记的样品进行杂交,检测杂交信号的强度及分布,进而对靶分子的序列和数量进行分析,可以快速、并行、高效地检测基因表达水平。
目前,常用的统计分析方法有差异表达分析,聚类分析。差异表达分析通过组间比较,到那些在不同组织之间和同一组织的不同条件和状态(如正常与有病)下的有差异表达的基因,差异性表达分析常用到一些参数方法,如t检验、方差分析与线性模型。聚类分析则将有相似表达行为的基因进行归类。目前人类疾病基因定位的理论策略主要包括以下三种分析方法:基于连锁(Linkgae)的分析方法、基于关联(Associatino)或连锁不平衡LD伍nikageDiseuqiilbrium)的分析方法和基因芯片表达数据分析方法。这几种方法都是非常有用的工具,并且在搜寻潜在复杂性状的基因时,三者可以相互补充。基因多态性
基因定位的连锁分析方法一般是以有关遗传标志为“路标”,以被定位基因与其连锁基因的重组率为“遗传
学距离”,进行基因定位。连锁分析考察同一染体上两个基因座的物理距离是否相临近。两个连锁的(物理上临近的)基因座上等位基因更易于一起分离,即它们一起作为一个单位由父母传递给后代,这种现象偏离了自由组合的孟德尔第二定律。人们认为,已知的标记系统和待推定的疾病基因座之间的连锁证据是此疾病由一种遗传机制造成的最有力的统计证据。连锁分析仅涉及到基因座的位置,用位置来定位基因,而不考虑此基因的生化功能。这种方法称为“定位克隆”(Positionaleloning)[“]。一个家庭中父亲(母亲)的两个基因座上等位基因由于连锁而共同分离的情况可能与另一个家庭中发生的分离情况不同。由连锁而发生的共分离现象只能在家庭内部才可以观察到,因此,考察连锁必须有家庭数据。连锁分析方法主要分为基于模型的参数分析法,及与模型无关的非参数分析法。基于模型的参数