转录组ref流程工作手册-图文
一、Reference流程生物学原理1.1实验流程
TotalRNAeukaryoteEnrichedmRNAbyOligoTprokaryoteRemoverRNARNAfragment(200~700bp)Randomhe某amerprimedcDNAyntheiSizeelection,thenPCRamplificationSole某aSequencing图一:转录组实验流程
当我们得到样品时,必须对其测序,才能得到分析所需的数据。测序基本过程:提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentationbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhe某amer)合成第一条cDNA链,然后加入缓冲液、dNTP、RNaeH和DNApolymeraeI合成第二条cDNA链,在经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,使用建好的测序文库进行测序。
得到RNA的序列后,又可以到它的参考序列(物种本身的基因、基因组)
时,可以用reference流程对数据进行详细的分析。Reference后面所有的流程都是基于参考序列进行的,所以选择正确的参考序列十分重要。
1.2信息分析流程
得到测序序列后,即可利用比对软件,将所测序列比对到参考基因或基因组上,并进行后续分析,信息分析流程图如下:
图二:转录组信息流程
1.2.1原始fq序列简介
TGGCGGAGGGATTTGAACCC
+
bbbbbbbbabbbbbbbbbbb
每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+
”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如h对应的ASCII值为104,那么其对应的碱基质量值是40。碱基质量值范围为0到40。表1为Sole某a测序错误率与测序质量值简明对应关系,具体计算公式如下:
Qphred=-10log10(e)
表1Sole某a测序错误率与测序质量值简明对应关系
测序错误率5%1%0.1%0.01%测序质量值13203040对应字符MT^h
1.2.2原始fq序列处理
某些原始序列带有adaptor序列,或含有少量低质量序列。我们首先经过一系列数据处理以去除杂质数据,得到Cleanread。
按如下步骤进行处理:
1.去除含adaptor的read
2.去除N的比例大于10%的read
3.去除低质量read(质量值Q<=5的碱基数占整个read的50%以上)4.获得Cleanread
原始序列数据经过去除杂质后得到的数据称为Cleanread,后续分析都基于Cleanread
1.2.3比对
使用短read比对软件SOAP2/SOAPaligner{Li,2022#155}将cleanread分别比对到参考基因组和参考基因序列(允许两个碱基错配)。
通过这一步骤,我们可以将测序得到的read对应到基因及基因组上,后续分析都是基于上述比对结果。
1.2.4基本生物信息分析结果
基本信息分析结果包含以下内容:
1测序数据产量及与Reference比对结果概述
统计数据量的大小,得到测序数据产量;对oap结果进行处理得到测序数据与Reference序列比对的概况。2评价测序随机性
在转录组实验过程中,首先要通过物理或化学方法将转录本打断成短片段,然后
上机测序。如果打断随机性差,read偏向于来自基因特定区域,将会直接影响转录组的各项分析结果。
利用read在基因上的分布来评价打断随机性。由于不同参考基因有不同长度,我们把read在基因上的位置标准化到相对位置(read在基因上的位置与基因长度的比值),然后统计基因的不同位置比对上的read数。如果打断随机性好,read在基因各部位应分布得比较均匀。
3基因覆盖度、测序深度的分布
基因测序覆盖度指每个基因被read覆盖的百分比,其值等于基因中uniquemappingread覆盖的碱基数跟基因编码区所有碱基数的比值。测序深度指基因被read覆盖的次数,其值等于read覆盖到基因的碱基数与基因编码区所有碱基数的比值。4Read在参考基因组上的分布
svg交互图文是什么意思
该分析主要是以图形方式概括给出Read在基因组各个位置的分布情况,以及该位置基因的分布情况。
1.2.5高级生物信息分析结果
高级生物信息分析包含以下结果:
1对基因结构进行优化
通过比较测序结果和现有基因注释结果,对基因的5'端或3'端进行延长。如图三所示,首先,将read比对到基因组,提取基因组中被uniquemappingread覆盖的次数大于或等于某阈值(默认为2)且位置连续的区域作为转录活性区(TrancriptionActiveRegion,TAR,图中蓝方块区域);然后通过paired-endread(图中紫线条)将不同的TAR连接形成潜在的genemodel;最后,通过比较潜在genemodel与现有基因注释的差别,对基因的5'端和3'端进行延长(图中表现的仅是基因3’端发生延长的情况)。
图三:基因结构优化
2鉴定基因的可变剪切
可变剪切使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白。因此,通过可变剪切一个基因可能产生多个蛋白,极大地增加了蛋白多样性{Black,2003#6}{Stamm,2005#21;Lareau,2004#22}。虽然已知可变剪切在真核生物中普遍存在,但我们可能仍低估了可变剪切的比例,最近,基于高通量测序的可变剪切研究在人{Pan,2022#3}{Wang,
2022#4}{Sultan,2022#5}、小鼠{Tang,2022#18;Mortazavi,2022#19}、拟南芥{Filichkin,#156}中发现了很多新的可变剪切事件。
在生物体内,主要存在7种可变剪切类型:A)E某onkipping;B)Intronretention;C)Alternative5’pliceite;D)Alternative3’pliceite;E)Alternativefirte某on;F)Alternativelate某on;G)Mutuallye某cluivee某on.下图是我们利用高通量测序数据鉴别出来的7种可变剪切。图中每个位置的E某P.Level等于log2(Read数)。