在做某基因多态性和复杂疾病关联研究的meta分析过程中,关于体分层(亚类)中有几个问题比较迷惑,请高手予以释疑:
1.此基因的四个多态性位点处于强LD关系且其中一个位点和多种自身免疫性疾病有较强的关联(此种关系在不同种族和人还有争论)尤其在亚洲人和高加索人中,因此人分层可先分亚洲人和高加索人,这点似乎没有问题。
2.接下来,如果只进行一个位点的分析,按照此位点和不同自身免疫性疾病的种类的研究进行亚组分析,妥否?
3.在已经纳入的case-control研究中,有好几项研究针对此位点同时进行了和RA、SLE、MS的研究,因此病例组有多组,但对照人只有一组(相对各个病例组人数较多),那么在meta分析时,此对照人可否在亚类分析时重复使用,如果可以,如何去表述?
请高手予以释疑为盼!谢谢!
兄弟,2,3似乎为同一个问题
没有问题
许多大文章都是分析一个位点与多种疾病之间的关系
对照组的重复使用是得到国际认可的 没有问题
这样的文章往往容易发表于较高级的杂志
因为这样的文章容易使读者对于该位点的意义有一个比较全面的了解
例如,我看过胃肠病等一流杂志有这么做过的
表述的话,就按不同疾病分别进行分析
提醒一点,讨论应注意写好
最近在做某一基因多态性与相关疾病的危险度的荟萃分析,因为相关的流行病学、统计学等方面知识比较欠缺,遇到了很多问题,特到版上来请教各位前辈。
请问各位大侠:
1、如果有的研究中对照组不符合Hardy-Weinberg遗传平衡检验,该研究可以纳入Meta分析吗,看到国外有类似文章中就纳入了对照组不符合HWE的病例对照研究,但又有文章说如果对照组不符合HWE,就将其剔除……到底应该是怎样的呢?
2、分析指标用OR,有的研究给出的是cruded OR,有的研究给出的是adjusted OR,应该都选adjusted ORs来合并吗?如果有的研究只给出了cruded OR,是否可以将其与adjusted ORs合并分析呢?还是一定都要AOR呀?
3、比如一个位点的多态性基因型有AA,AB,BB,而有研究只给出了A allele carriers的OR,请问该如何求AA,AB的OR呢?好像不太好求耶,可信区间也不知道呀,这种情况是不是只有写信跟作者要相应的OR了呀?
4、A allele carriers 的OR是怎么算的呢?是AA的OR与AB的OR简单的相加吗?
染体多态性5、如果所要研究的疾病有两种组织学类型H和S,有研究分别给出了H和S中某一多态性的OR,但没给出我想要的疾病(不分组织学类型)的OR,怎么办呢,有办法来根据H和S的两个OR求总的疾病的OR吗?还是这个研究就不能纳入Meta分析了呀,除了问作者直接索要外?
6、有研究认为AA
与发病风险相关,所以给出了AA的OR,
有研究认为A allele carriers与发病风险相关,所以给出了A allele carriers 的OR,
有研究认为是BB与发病风险相关,所以给出了BB的OR,
怎样把这些研究都有效的整合起来,都利用起来呢?如果大多数文献说的是AA与发病风险相关,所以我做AA与发病风险的Meta分析,那么那些只给出BB或A allele carriers 的OR的文献是不是就没有用了呀,这样就少了好多好不容易到的文献呀
不好意思,真的是初学者,可能问了好多很浅显、弱弱的问题,因为时间紧迫,请了解的各位大侠一定要不吝赐教呀,
晚辈在此万分感谢……
谢谢……
我的问题是,如果exon和 intron交界区发现SNP,那么离交界区多大区域的SNP有意义呢,会影响剪切呢?有无这方面的文章呢?请各位大侠赐教,谢谢!
你的这个问题非常有意思,我检索了相关的文献,(在Medline上,用了splicing site AND snp, exon intron AND snp等),没到直接和你所问的问题相关的文献报道,有一篇讲在splicing donor中的snp会降低其转录效率!我个人认为snp对alternative splicing site影响值得大家研究研究!(如需要全文,可以到文献检索SOS版求助!)
Genes Cells. 2002 May;7(5):461-74.
A single nucleotide polymorphism at the splice donor site of the human MYH base excision repair genes results in reduced translation efficiency of its transcripts.
Yamaguchi S, Shinmura K, Saitoh T, Takeno***a S, Kuwano H, Yokota J.
Biology Division, National Cancer Center Research Institute, Tokyo, Japan.
BACKGROUND: Adenine paired with 8-hydroxyguanine, a major oxidatively damaged DNA lesion, is excised by mutY homologue (MYH) base excision repair protein in human cells. Since genetic polymorphisms of DNA repair genes associated with the activities and the expression levels of their products may modulate cancer susceptibility of individuals, we investigated the effect of a single nucleotide polymorphism (SNP) in the MYH gene on the difference in the expression levels of its products. RESULTS: An aberrant size of the beta type nuclear form transcript was detected in a lung cancer cell line, VMRC-LCD, by reverse transcriptase-polymerase chain reaction (RT-PCR) analysis. The transcript contained the intron 1 sequence, and it was due to alternative splicing resulting from IVS1+5G/C SNP. The presence of the upstream open reading frame (ORF) on the 5'-side of the native ORF in the beta type transcript from the IVS1+5C allele could reduce the translation efficiency of the transcript into the nuclear form protein. Thus, expression vectors bearing the 5'-untranslated region se
quence of either the IVS1+5G or 5C allele were constructed. In vitro translation analysis, as well as Western blot and quantitative RT-PCR analyses of the H1299 lung cancer cell line transfected with these vectors, rev
ealed that the translation efficiency of the IVS1+5C transcript into MYH protein was much lower (approximately 30) than that of the IVS1+5G transcript. CONCLUSIONS: The SNP at the splice donor site of the MYH gene resulted in reduced translation efficiency of its transcripts. This is the fourth case of single nucleotide variations that cause alterations in translation initiation sites and translation efficiencies in human cells.
PMID: 12056405 [PubMed - indexed for MEDLINE]
我们一般认为在外显子边界约30bp内,都需要进一步分析,如果你的正好在外显子与内含子交界处,这样会影响剪切位点,从而影响整个基因的翻译.
位于外显子区并改变氨基酸序列的SNP
位于基因表达调控区如启动子、增强子、转录因子结合区、加尾信号的SNP
位于外显子和内含子交界区域的SNP
位于外显子区并改变氨基酸序列的SNP以及位于基因表达调控区的SNP具有重要临床意义和功能意义
SNP研究为了解疾病的发病机理,疾病的诊断及疾病易感性研究提供基础。
生物信息学可提供SNP的数据库和功能预测
有谁知道 Hardy-Weinberg 吻合度检验方法?有遗传学的大虾吗?
CX的书
见《体遗传学导论 》17-39页
作者: 郭平仲 出版社:农业出版社 出版日期:1993年5月第1版 页数:391
阅读下载方法见本人附言栏连接
IP地址见 悄悄话
Pearson X^2检验
只有举个例子,你才能明白,如下:
1,三个基因类型(genotype)实际数(O):
AA---AB---BB
1787 3039 1303 总数 N=6129
2,等位(allele)频率
F(A) = (1787 + 3039/2) / 6129 = 0.54 = p
F(B ) = (1303 + 3039/2) / 6129 = 0.46 = q … and S(p,q)=1
3,期待genotype频率:
期待AA 频率: p2 = (0.54)2 = 0.2916
期待AB频率: 2pq = 2x 0.54 x 0.46 = 0.4968
期待BB 频率: q2 = (0.46)2 = 0.2116
4, 期待genotype数 (Q):
期待AA : p2N = 0.2916 x 6129 = 1787.2
期待AB : 2pqN = 0.4968 x 6129 = 3044.9
期待BB : q2N = 0.2116 x 6129 = 1296.9
5, 卡方值
X2 = (OAA-QAA)2[平方]/QAA + (OAB-QAB )2[平方]/QAB + (OBB-QBB )2[平方]/QBB
再根据X2求出P值!!!
既然提到了HWE,我就顺着说吧,自己对这个不是特别清楚,但是还是希望搞明白,这个帖子是在基础研究领域那边贴的,还是在这里重复一下,大家不要见怪。希望能给些建议。
“此后自己想了一下HWE的问题。Clayton认为,在基因型的外显率小的情况下,基因型在对照组的分布和体之间并不会有差异。因此,control组中检验HWE可能会无法察觉其中的差异。
然而,对于病例组,往往会偏离HWE,这也预示着初步的关联。显然,对于在对照组利用候选基因SNP进行HWE检验,我个人认为,是一种循环论证。并没有考虑到HWE的前提条件。
不过,HWE究竟有多大的检验人分层的效力(power)呢?这是我一直
关注的问题。如何能充分的说明对照和病例人没有层化能?全当抛砖引玉之作。”
其实Hardy-Weinberg Equilibrium检验就是一个人口遗传分布平衡的检验方法,简单说就是我们实验所抽出的样本能不能代表真正的所在地区的人分布。试验中,不仅control组要在Hardy-Weinberg Equilibrium (也说 P > 0.05),原则上说case组也要在Hardy-Weinberg Equilibrium,但好像不应该说:对于病例组,往往会偏离HWE,这也预示着初步的关联。
感谢katalyster老师的拨疑。
也许我没有表达清楚,呵呵。
关键是检验HWE的遗传标记是什么?
是我们所选的候选基因还是---无关、随机的---遗传标记?
我看到的一些文章都是用候选基因检测HWE,从而试图说明人没有发生层化,遗传背景比较单一。但是他们的前题似乎是有些问题。
我不否认无关遗传标记会保持HWE,而且HWE本身也可以检测人分层,但是作为候选基因,应该说它们作为疾病修饰基因的可能性是比较大的。否则我们没有必要采用候选的策略去做关联分析。
对于增量显性模型(multiplicative penetrance model)而言,所考察的基因型符合HWE。
我所感性趣的是如何选择无关标记?在样本数固定的情况下,多少无关标记足以说明人遗传方面的匀质性?
关于如何选择无关标记?对不起,我也无这方面的学识。 在样本数固定的情况下,多少无关标记足以说明人遗传方面的匀质性,这好像是人口遗传流行病调查方面的问题,我实在答不上来,希望搞这方面的战友来解释!
在分析一个样本的数据时,常需对所采集的样本的代表性进行检验,既检验样本的采集是否是随机的。根据Hardy-Weinberg定律的二项式公式,对每个 等位基因的纯合子,各个等位基因组合的杂合子的百分比进行计算,将获得的基因型理论值与实际个体的基因型观察值进行chi-square 检验,确定这两组数据是否有显著性差别。如果存在显著性差别,则说明样本的随机性不够或者数目采集不足。
例如:在我的课题中,分析了一个基因位点的突变是否达到了遗传平衡,该位点位于7号染体上,由胞嘧啶C突变为胸腺嘧啶T,我的样本量为192人。
基因型 数目(人) 基因型频率
CC 55 28.7%
CT 103 53.6%
TT 34 17.7%
等位基因C的发生频率为:28.7%+53.6/2%=55.5%
等位基因T的发生频率为:17.7%+53.6/2%=44.5%
根据Hardy-Weinberg定律,P2+2pq+q2=1
则基因型CC的理论值数目是:0.555*0.555*192=59
基因型TT的理论值数目是: 0.445*0.445*192=38
基因型CT的理论值数目是: 2*0.555*0.445*192=95
X2=∑(A-T)2/T=(55-59)2/59+(34-38)2/38+(103-94)2/94
=1.4174
按自由度=2,查X2界值表,P>0.05,因而不能认为这两组数据
有显著性差别,也即该样本达到了遗传平衡。
你说得非常清楚和易懂,好!但有一点我要澄清:
自由度=2?应该是自由度=1。
还是不太明白?
那么,如何分析(或控制)case和control组中的分层
(admixture/substructure/confounding)?从而说明并不存在“spurious association)?
当人出现分层时,是否HWD?
如果HWE存在,可否断定人没有层化?
HWD告诉我们几个方面的信息?
这些问题都在困惑着我。
还有一点,在case里面针对候选的修饰基因计算HWE,对吗?如果case里面HWD(针对修饰基因),是否认为是层化呢?恐怕结论有些突兀。我觉得对于疾病基因本身无需要求达到HWE。
再次感谢katalyster 和hammerworker老师的指点和帮助。希望予以指点。
看了上面诸位老大关于HWE的高见,对此计算已经OK,回去后将自己的数据进行了分析发现一个奇怪的结果,即:
我作的是case-control研究,在总体病例组和对照组的HWE中,对照HWE平衡,而病例组 0.025>P>0.05, 在0.05水平有差异。为了发现这种差异的来源,我进一步将病例组按年龄进行分组后发现各年龄组均符合HWE,那么问题出在什么方面呢?各位有无遇到这种问题?我在DISCUSSION中该如何自圆其说呢?请各位不吝赐教,谢谢!
Use of Unlinked Genetic Markers to Detect Population Stratification in Association Studies
Jonathan K. Pritchard and Noah A. Rosenberg
Population Admixture: Detection by Hardy-Weinberg Test and Its Quantitative Effects on Linkage-Disequilibrium Methods for Localizing Genes Underlying Complex Traits
Hong-Wen Deng Wei-Min Chen and Robert R. Recker
我正在看这几份资料。我想你也会对此感兴趣。
0.025>P>0.05???0.025<P<0.05???
HWE P<0.05,说明你抽样的样本偏离人口的遗传平衡,原因是多方面的!
你的case-control的年龄配比了吗?没有的话,配比后很可能HWE变成P>0.05,这样可能损失一些样本。另一个办法就是增加病例组样本,以期待HWE变成P>0.05。
关于在DISCUSSION中该如何自圆其说,既然HWE P<0.05,没有法自圆其说
johnseaman :我想问一下,你为什么要把年龄进行分层呢,我想即使将年龄分层后,发现有一个年龄层中出现HWE不平衡,那就好解释了吗?而且,将年龄分组好像也没有什么根据(好像人一生中基因基本上是不变的,当然疾病在不同年龄分布经常不一样)。我不知道你的样本量是多大(可能是样本量不大所致,也可能是样本选择偏倚所致),但一点是很清楚的,问题出在年龄的分组上,我想不同的分组,对于你的研究结果也是不一样的。我的一点拙见是:将病例组和对照组每种等位基因型和等位基因进行比较,可能会发现某一种等位基因或等位基
因型在两组间分布的差异。对于年龄的分组就可以免了吧(当然疾病和年龄的关联可以做)。
很多很多问题都越发不太明白。希望各位学长和老师能够在体遗传学的实验设计和分析上予以指导和帮助。文件已经转发给大家。呵呵!
对于上一个问题,我个人觉得没有必要基于年龄进行分组分析,除非想控制年龄这个因素对于结论的影响。那么control也要做相应调整。
而case里面的HWD也恰恰说明人存在substructure。
各位战友,对于年龄分组是因为我研究的是一个单基因遗传性疾病,绝大多数少年起病,且年轻患者容易出现家系遗传。我当时之所以将年龄分组是因为想出到底是哪一组人使得HWD?!因为年轻患者中相对遗传倾向更明显,有更多家系患者,因此我原来的想法是是否因为这些家系患者使得整个case组HWD了。我的样本每组各有200-300例,因为研究的基因频率很高(>30%),因此样本数是足够了。有意思的是经过仔细分组,各亚组是HWE的,而所有亚组的整合却HWD了,真是百思不得其解呀?:(
为什么不用TDT分析?我没有实际经验,但是从算法上讲它是可以避免由人分层引起的诸多问题。因为它采用家系成员作为对照的。
抱歉,我做的主要是散发病例,对照是正常人,只是病例中有几个家系病人而已,所有没法做TDT
做meta分析急不来啊。事实上,目前对临床上大量应用型的meta分析文献的涌现也存在隐忧。
Meta分析有广义和狭义两种概念:前者指的是一个临床研究的过程,是全面收集所有相关临床研究并逐个进行严格评价和分析,再用定量合成的方法对资料进行统计学处理得出综合结论的过程;后者仅仅是一种单纯的定量合成的统计学方法。临床医生只需要知道meta分析的基本思想,具体的统计学方法就让统计学家去研究,让统计学软件帮我们完成。Review manager是cochrane协作网提供给评价者准备和维护更新cochrane系统评价而设计的软件,也可以说是专门为临床医生度身订作用于完成meta分析的软件,它不仅可以协作您完成meta分析的计算过程,还可以帮助你了解meta分析的架构和学习系统评价的分析方法,最后把综述者把完成的系统评价制作出易于通过电子转换的文件以标准统一的格式发送到CDSR(The Cochrane Database of Systematic Reviews),便于电子出版和日后更新。充分利用RevMan软件对初次从事系统综述的人员获得方法学上的指导有很大的裨益。
Meta analysis的基本步骤:
1.  明确简洁地提出需要解决的问题
2.  制定检索策略,全面广泛地收集随机对照试验
3.  确定纳入和排除标准
4.  资料选择和提取,剔除不满足要求的文献