简介
网络极大地加速了遗传学的基础研究。人类基因组计划很大程度上就是依靠网络来获得新的信息,并和全世界共享已经有的数据。另外还有很多网络数据库为公众和研究人员提供各种核苷酸序列和蛋白质信息。这些网站所有的数据都是用数据库来存放的,对这些数据的查找、访问、更新,以及现在正在积极进行的对基因信息的注释工作都是通过数据库来完成的,所以常直接称这些网站为数据库。2
发展历史最早的生物学数据库是在 20世纪 60、70 年代出现的,当时人们对蛋白质已经研究得比较深入,得到的关于蛋白质的数据也越来越多。这些促使Margarel Dayhoff建立了第一个蛋白质的网络数据库。现在这个数据库的名称是International Protein Information Resource(PIR)。320世纪80 年代早期,Amos Bairoch 建立SWISS-PROT sequence数据库。发展到今天,这个数据库已经成为当今最有名的蛋白质数据库之一。后来,随着各种基因组测序计划的启动,尤其是在人类基因组计划启动以后,核苷酸序列信息开始极快地增长,核苷酸序列数据库开始出现。4
遗传学基础研究相关数据库最著名的三个核苷酸序列数据库是GeneBank、ENBL和DDBJ。前者由美国国家生物技术信息中心(NCBI)开发,后者由欧洲生物信息研究所(EBI)开发。两者都担负着人类基因组计划的测序任务,NCBI更是人类基因组计划的组织者。而由 NCBI 负责的网站(http://www.ncbi.nlm,nih,gov)和由 EBI 负责的网站(http://www.emsembl.org/genome/central)则成为了生物基因信息尤其是人类基因信息的主要来源。DDBJ是位于日本的核苷酸数据库。这三个世界上最大的核苷酸数据库已经实现了数据共享,并且它们都支持研究人员上传自己研究得到的基因数据,通过三个数据库中任何一个输入的信息都能在另外两个中看到。此外,这三个数据库还和其它几个相关的数据库如PubMed、Locuslink、RefSeq 等实现了数据关联5,不同数据库内的数据可以相互参考,为使用者提供DNA、RNA、蛋白质以及参考文献全方位的信息。
其它一些数据库的数据涵盖了DNA 序列,RNA序列,蛋白序列,蛋白质二级结构,蛋白质三级结构,基因突变体,生物代谢途径等方面。门类齐全的网络数据库正在为生物学的研究提供不可或缺的帮助。下表中按照类别列出了全世界几个大的分子生物学数据库。
|| ||
另外由于为遗传学基础研究服务的数据库的增加,为方便对各个数据库的查找,网络上也开始出现一些专门提供各个数据库的信息的网站。DBcat就是其中之一(http://www.infobiogen.fr/services/dbcat/)。到现在为止它总共提供了 788 个网络数据库的数据。这些数据库被分为八大类:DNA、RNA、Protein、Genomic、Mapping、Protein Structure、Literature、Miscellaneous6。
医学遗传学数据库随着基础研究的进展,人们对各种由于基因缺陷而造成的疾病的认识越来越深。为了研究和为公众服务的需要,Internet 上开始出现一些遗传相关疾病的数据库。GeneClinics (http://www.geneclinics.org) 是一家提供各种疾病信息服务的权威性网站,到现在为止,已经搜集有 100 多条疾病信息,其中绝大多数是和遗传病相关的。OMIM(Online Mendelian Inheritance in Man)则是另一家提供类似服务的大型网站。这个网站和与它相应的杂志Mendelian Inheritance in Man 一样,都是专门为专家和研究人员服务的。它搜集了上千种被认为是遗传疾病的病例。另外,网站还提供了和 PubMed(http://www.ncbi.nlm.nih.gov/pubmed)的链接,用户可以通过 PubMed 查询生物医学杂志上的相关文章。实际上,所提到的绝大部分网站都提供了和 PubMed 的链接。
人类基因组流行病网络(HuGENet)( http://www.cdc.gov/genetics/hugenet)是由疾病预防和控制中心(Center for Disease Control andPrevention)建立的提供人类流行病信息的网站。包括了特定流行病人群基因突变的数据、不同人群基因突变和流行病之间关系的数据、以一定量的人群为基础的基因与环境相互作用的数据、人口压力对基因检验和医疗的影响和基因突变对疾病防治和提高健康水平方面的影响等信息。
未来的发展以人类基因组计划为核心的各种基因组测序计划使遗传学的数据呈现爆炸式的增长,要对该领域做出一个准确的预测几乎是不可能的。我们只能通过现有的迹象和发展模式猜测未来遗传学的发展。
网络数据库因为其对数据高效的管理和可以方便地实现数据共享仍然会在遗传学研究中占据主要位置。在将来的几十年中,生物信息学将会成为遗传学研究的主要方向。随着各种数据的快速增长,数据库也将越来越庞大,越来越复杂,如何保持和加快数据库检索的速度,如何能够实现自动的数据发送将成为后期数据库发展的主要问题。2