nr:
nr的数据库到底算是核酸还是蛋白的数据库呢?
目前有很多的数据库都存储了蛋白序列,比如NCBI Refseq, protein, swissprot 等,在各个数据库之间,或者是在某个数据库中,蛋白序列有大量冗余;为了方便使用,ncbi 构建了nr 库, 全称是 RefSeq non-redundant proteins;
Non-redundant protein sequences from GenPept, Swissprot, PIR, PDF, PDB, and NCBI RefSeq
SwissProt:
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。
SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具,查阅有关文献资料仔细核实的。
SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。
KEGG
KOG
GO
nt:
刚才下载的nr库就是蛋白库,blastx就是用来将核酸序列比对到蛋白库上的。
(nt就是核酸库)
pfam:
一个基因转录的蛋白质分子中可以包含多个结构特异并且功能不同的区域,这些区域称之为domain,domain 可以看作蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定,研究domain, 可以更好的研究蛋白质功能,而具有相同结构域的基因往往形成一个基因家族。
基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族。
来源:
http://blog.sina.com.cn/s/blog_670445240101kh3w.html
https://www.cnblogs.com/xudongliang/p/8086572.html
https://www.biomart.cn/experiment/430/586/588/20994.htm
https://baike.baidu.com/item/SwissProt/3462118?fr=aladdin
https://blog.csdn.net/weixin_33806300/article/details/86395602