介绍
DNA序列数据库是集合所有已知核酸的核苷酸序列,单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。基因和基因组的资料也包含在DNA序列数据库中。
1、核酸序列数据库
国际三大核酸序列数据库:GenBank, EBML, DDBJ
RefSeq: The Reference Sequence Database
dbEST: Expressed Sequences Tags数据库
UniGene等
2、蛋白质序列数据库
UniProt (Swiss-prot & TrEMBL, PIR)
3、基因组数据库: Ensembl
常用数据库NCBI主要基因序列数据库GenBank:包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。其数据直接来源于测序工作者提交的序列,为原始数据积累的开放数据库,数据可能存在重复以及不准确。
UniGene:对核酸序列数据库的数据进行适当处理,剔除冗余部分后,同一基因包括表达序列标签的序列簇,多用于研究基因的转录图谱。
RefSeq:提供非冗余的,高质量的,经检验校正的序列信息;包括染色体、基因组(细胞器、病毒、质粒)、蛋白质、RNA等。
Entres-Gene数据库序列来源于Refseq数据库;
详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构等;
基因的命名主要来自权威命名委员会的官方符号以及Refseq记录中的基因名,由NCBI工作人员进行数据收集并注释。NLM的索引部门对基因功能进行阐述。
沿用人类孟德尔遗传网(OMIM)中的疾病名称并与NCBI其他数据库形成交互链接。
PROSITE收集了生物学有显著意义的蛋白质位点和序列模式;
根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族;
序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。1