简介产生背景
随着后基因组时代的到来,人们开始对于基因组及其成套产物的功能进行研究。在生命体内几乎所有的基因组产物都是通过与其它各种分子发生相互作用而行使其功能的。1
为了更好地保存和处理如此海量的生物序列数据,我们毫无疑问的将这些数据存储到大型计算机的数据库中。目前,国际上的公共数据库有近百种,其中最著名的核酸和蛋白质序列数据库有几十种。据统计,这些数据库中的数据量正在以指数速率增长,平均每年翻一番。
有了这些数据库,人类将更方便地共享这些生物序列,更方便对这些数据进行分析处理。因为,到20世纪90年代,Internet技术已经相当成熟,人们可以方便的通过网络共享资源。因此,这些大型的数据库每天都进行更新,并通过网络进行数据同步。这样全世界的生物信息学研究人员获取实验数据就变得很方便了。另外,这些大型数据库服务器大多提供序列分析和基因检索等序列分析服务。研究人员可以通过这些数据库提供的先进的技术和工具对生物序列进行分析。2
分类根据数据库中数据内容的不同,现有的生物序列数据库有如下几类:
基因序列数据库,包括最著名的GenBank、EMBL、DDBJl等。这些数据库每天更新,相互交换数据。目前,它们可以提供5万多个物种的数百亿碱基对的基因序列。此外,它们还提供序列分析服务,支持在线和离线的序列分析。
蛋白质数据库,其中最著名的是国际蛋白质数据库PSD和瑞士的数据库SWISS—PROT。它们仅仅提供蛋白质序列数据和一些蛋白质序列搜索服务,如基于文本的交互式检索,标准序列相似性搜索,结合序列相似性、注释信息和蛋白质家族信息的高级搜索等。
功能数据库,如KEGG,它是系统分析基因功能,联系基因组信息和功能信息的知识库。它存储了基因组序列和更高级的功能信息,包括图解的细胞生化过程以及关于化学物质、酶分子、酶反应等信息。KEGG还提供了Java的图形工具来访问基因组图谱,比较基因组图谱和表达图谱,以及其他序列、图形比较等。
其它生物数据库,包括RNA数据库、线粒体数据库、基因表达数据库、密码子数据库、蛋白质三维结构数据库和霉一代谢数据库等等。2
当前问题序列数据库的繁琐冗长增加了科学家们要使用这些资源时的困难 某个生物学家要获取一个关于果蝇的核酸序列,从EMBL核酸数据库中得到36个不同的核酸序列记录。他们中没有一个考虑当今的知识,例如,刊登遗传因子捆绑位置。一些是突变株的等位基因,一些是不同的野生型等位基因,但是对于它们之间的差异投有完整的注释。可怜的生物学家只想得到这个基因的决定性序列。当然,这不是真正的目的,然而却非常实用。对第二代序列数据库有明显的需求,生物学的内容以较有条理的方式连接到序列上,而冗长的序列被合并(附有特别的注释)。这些都应是以最初的序列数据库为基础,被具有必要的专门技术的机构来处理。一 些遗传数据库正着手此类工程。3
序列数据库国际核酸序列数据文库(通常称为基因库),是一个联合产物,包括日本的DNA数据库”,欧洲生物信息协会(EBI )及NCBI 。它是一个从群体中接受核酸序列数据并且使其成为随意使用的数据仓库 尽管他的名字“数据库”还含有从核酸序列的“概念翻译”获得的蛋白质序列。为了达到记载每个公开的核酸序列的目的,
这个数据库作为试验性数据与为最终完成而竞争的储藏库。这些数据是庞杂的,它们随着对材料来源的重视程度(如与cDNA相对应的基因组)、预期的质量(如已经完成的相对单一的序列)、序列注释的范围与关系到生物学目标的序列预期完成情况(如相对于部分的基因或基因组是完整的)的变化而变化。
虽然有数据库工作人员来检验数据的完整性及明显的错误,数据的质量还是与呈送者有直接关系。作为一种结论,数据库中有许多错误,许多序列记录或者被错误地标记、污损,或者被不完全地或错误地注释,或者包含排列的错误。另外,数据库是非常冗长的,在这种情景下,来之同种生物体的相同序列可能有多次重复,简单地归咎于最初科技报告的繁琐。一个重要的“附加值”服务是优劣分类等级制的负担。
一系列序列数据库通过合并序列解决冗长的问题,这些合并序列与一个完全可以从相同基因推断出来的序列充分相似。目前,这些数据库仅对人类序列有用,在其它方面的使用则刚刚起步对于拥有完整的或巨大的序列的生物体基因组,除了被储存于主要的核酸序列数据库外,还常常被储存于特定的生物数据库中。对此,一个可用的信息来源是完整的基因组排列计划目录,由各个大学保存的, 这项资源已被连接到公共数据库上。
所有大型排序中心都保存他们自己的数据库,这些数据库经由它们的本页可以进入访问。有五个特别有用的数据库—由于被研究的生物体不同一他们是基因组研究协会(TIGR) ,华盛顿大学基因组序列中心 ,Sanger 中心、 Oklahoma大学基因组技术中心及Stanford基因组资源处 。
几类特别的序列数据库也是可以利用的。它们中有一些是特殊的序列等级,如关于ribosonud基因的Ribosomal数据库计划,HIV与亲缘病毒的HIV序列数据库 , 关于免疫遗传分子的[ IMGT]数据库 ;还有独具特色的TRANSFAC、EPI)、REBASE等等。3
蛋白质数据库IPIDIPID的系统架构分为三层:
(1)数据仓库层:用于存储来自25个数据库的各种与蛋白质相关的经以三个基本相互作用元件标准化后的相互作用数据、7个不同的序列库(包括以CFGP格式存储的10个基因组数据)、4个Dommn数据库和3个Chemical数据库;
(2)网络界面层;用于方便地浏览存放于数据仓库层中的各种与蛋白质相关的相互作用及基本相互作用元件数据,并提供了InterXlTandem,用于鉴定用户所输入的质谱中的蛋白质并显示IPID中所含的与该蛋白质相关的各种相互作用数据。
(3)Favorite层:是一个用于存放和分析用户从数据仓库层采集的各种所感兴趣的与蛋白质相关的相互作用或相互作用元件数据的个性化虚拟空间,共提供27个分析工具。1