NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心
[url]bi.v/[/url]
NCBI是NIH的国立医学图书馆(NLM)的一个分支。
NCBI提供检索的服务包括:
1GenBankNIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自47000个物种的30亿个碱基。
2Molecular Databases(分子数据库):
Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整理核酸序列,提供直接的检索。
Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源中编译整理的,方便研究者的直接查询。
Structure(结构)-—— 关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR谱分析。
Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。
3Literature Databases(文献数据库)
(1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相关资源。
(2)PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,用户可以免费获取PMC的文章全文,除了部分期刊要求对近期的文章付费。
(3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor A.McKusick和他的同事共同创造和编辑的,由NCBI网站负责开发,其中也包括对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链接。
(4)Books:NCBI的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息、摘要、目录和全文的连接,用户可以直接在检索文本框内输入一个观念就可以查询。
4NCBI提供的附加的软件工具有:
开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、等信息,还提供了到NIH、NLM等的链接。
使用方法:
用户可以免费登陆NCBI的网站,NCBI为使用者提供了方便的检索系统和检索方法:
1.Entrez是NCBI为用户提供整合所有数据库的访问序列,定位,分类,和结构数据的搜索和检索工具系统,同时也提供序列和染体图谱的图形视图。用户进入系统或者进入任意一个数据库,都会看到简单检索的界面,选择数据库输入关键词即可进行查询。Entrez也提供条件限制和高级检索、布尔逻辑查询。使用新的Linkout服务,外部资源可以被链接到Entrez记录。
2.BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
NCBI Education
bi.v/Education/index.html
网址详情:
这是NCBI在线教育资源的索引页,从这里出发你会到NCBI提供的教学资源,这些教程不
仅囊括了NCBI网站提供的最常用的工具和数据库(BLAST, Entrez, PubMed, NCBI News,Resource publications ,Map Viewer exercises,Structure ,NCBI Handbook)的使用方法和信息,还有一些相关的分子生物学的基础入门知识(NCBI )。
教程大多不仅有文字图片还有动画,直观易懂,目的就是一个让大家尽可能快而有效的掌握好NCBI的使用,在这个聚宝盆里淘到真金。
当然您如果想对所有NCBI的数据库和工具有更透彻深入的了解,请绝对不要错过共24章的NCBI手册(NCBI Handbook)
[url]bi.v/books/bv.fcgi?rid=handbook[/url]
bank文件GenBank数据库简介
1. GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组
剖析计划(CGAP)等数据库。GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。
2. 纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
3. 访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。
4. 增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
5. 公布通知,最新 - 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
6. 公布通知,旧 - 同上相同,是过去公布的统计。
7. 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
GenBank提交数据
1. 关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
2. BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体)
3. Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
4. ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。
5. GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。
6. HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。)
7. STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。
8. 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。
国际核苷酸序列数据库合作组织
1. GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查相应纪录,得到的结果是完全一样的序列数据,参考内容等等
2. DDBJ/EMBJ/GenBank特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。
FTP GenBank and Daily Updates
1. GenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
2. ASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。
3. FASTA格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
分子数据库:
1. 核酸序列
1、 Entrez核酸: 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。