NCBI的检索软件ENtrez及两大数据库:GenBank和RefSeq
EBI的核酸序列数据库EMBL及其它服务
上面这两个主要是针对核酸的
Swiss-Prot蛋白序列数据库(蛋白质服务用)
PDB生物大分子三维结构数据库.
SCOP蛋白质结构分类数据库。
Entrez及两大数据库:GenBank和RefSeq
NCBI:美国国家生物技术信息中心(National Center for Biote4chnology Information),作为国家级分子生物学信息资源中心建立与1988年
主要任务:
构建和维持生物学信息数据库
引导计算生物学研究
开发软件工具,进行基因组数据分析
发布生物医学信息
一般的数据库都自带集成检索系统Entrez
Entrez,根据用户的需求,交叉检索一下各类数据库:
1.科学文献
2.核酸和蛋白质序列数据
3.蛋白质三维结构和结构域数据。
4.表达数据
5.全基因组数据
6.物种分类信息
用户可以从这些数据库的任何一个开始,用作者名,accessiion number,基因或蛋白质名,酶的EC编号等关键字进行检索.
检索结果得到大量直接或相关的信息。
可以进一步规定一些限定条件对信息进行挑选过滤或者通过相关的链接或者更多的信息。
GenBank是一个包含所有公开发表的核酸序列及注释信息的数据库
GenBank的数据完全公开,也接受世界各国实验室送交的核酸序列数据。
对序列的解释由提交作者来提供的信息。
GenBank文件格式
将一条序列相关的各种信息按一定的结构,以文本文件形式组织在一起,构成了一个GenBank record.或者成为entry.
一个GenBank的文件由一段总的描述开始File Head information 加上许多许多GenBank record组成,这种文件格式。文本格式适合进行研究.
LoCUS是一个record的开始.该行所含信息:
字符1-5 ‘locus’
字符13-28 locus name
字符30-40 Length of sequence,right-justified;
Accession:该区域包含一个或多个”accession number’
SOURCE 序列来自哪个物种的
SOURCE baker’s yeast.ORGANISM ..
由两部分组成:
第一部分:开始于第一类的keyword:source”后接自由格式的物种名。
第二部分:开始于第三类的sub-keyword,后面就出现正式物种名.
Reference参考文献
关于这序列的参考文献。
FEATURES
提供序列特征的各种信息
不同的信息由不同的sub-keyword引出.
RefSeq数据库
RefSeq是”Reference Sequence”的缩写
RefSeq包含的事GenBank基础上经过专家整理过的数据,因此无冗余,注释较为准确的数据。
RefSeq只涉及那些有较多数据的物种。