介绍
数字数据库常常称为源数据库、非文献目录数据库、数据文档、数据仓库以及事实仓库, 以便同传统的文献目录数据库格区别。众所周知, 文献目录数据库通常用于查询。这些数据库是针对文献中的某篇文献, 或对某人、某机构来进行检索的。显然还有一些查阅型数据库不提供文献引文检索。这类数据库例子之一是科学信息交换数据库。该数据库概括了研究项目内容, 提供研究者名字、研究所或发起机构、甚至还有研究经费的数目。查阅型数据库经常被看作是数字数据库范畴的一部分。
第二类重要的数据库——源数据库或数字数据库包含各种各样的信息和学科领域。在商业和经济中, 这些数据库可以提供关于某些产品价格趋势和其它统计数据, 某个国家的工业增长率或消费的数字信息。与数字数据库相关的科学可能涉及化合物的物理性质和化学性质、结构、光谱和命名法。有些源数据库兼有事实回答型信息和数字数据。只有极少量的源数据库包含着全文文献。最有代表性的便是全文式法律系统。
由于数字数据库在很多学科中有各种各样的作用, 所以给它们下一个统一的定义有点麻烦。与文献记录中所标明的数字如出版年份相反, 数字数据通常定义为用标准单位表示的观察量或测量量。在最普通的意义上来说, 一个数字数据库是一个计算机可读数据的集合。很多含有这种数据的数据库系统都具有检索数字数据并处理这种数据的能力。有些数据库系统具有对数据的严格评价。这是一个非常重要的功能, 应成为更多数据库系统的一个必不可少的组成部分。
特征1、在数字文档中, 数据的可靠性是极为重要的。而这个标准在文献目录查找中却不那么严格。
2、与数字数据检索相比, 及时性对文献目录检索来说要重要得多。例如, 胰岛素的晶体结晶或水的沸点几年内不可能有很大的变化。测量精度可能有所提高, 而且应在前面提到的误差估计中表示出来。
3、与文献目录检索相比, 专业知识对数字检索来说要重要得多, 特别是在需要数据处理和分析的时候。
4、数字检索和文献检索的检索输出要求是截然不同的。在文献目录检索时, 特别是在物理与生物化学中, 输出100~200篇引文是常见的事。而在数字数据检索中, 如果不是要比较很多类似化合物的数据的话, 人们的目的只是要查找一个数值或一组数据。
举例NIH-EPACIS数字数据库目前,NIH-EPACIS(化学信息系统) 通过一个描述程序给最大数量的科学提供相关的数字数据库。其功能很强的SANSS部分子结构和术语查询系统能处理二维表示的结构记录, 而不采用文字术语或线性表示的结构记录尽管后者有它自己的长处。借助于CIS, 就可能在图象上用键联结来构成一个化合物, 并要求交互系统检索化合物的部分的或全部的结构式。为避免术语不一致起见,用其化学文摘的登记号以及标准的术语编制化合物索引。CIS系统允许用名称、登记号、图形结构或部分片段、分子式、商用名、以及化合物的其它特性来查找一个化合物。
MEDLINE数字数据库MEDLINE是美国国立医学图书馆(The National Library of Medicine,NLM)开发的当今世界上最具权威性的文摘类医学文献数据库之一。早期的MEDLINE包括了美国《医学索引》(Index Medicus)、《国际护理索引》(International Nursing Index)和《牙科文献索引》(Index to Dental Literature)三大检索工具的内容,后来又有更多的子文档加入,如AIDS-HIV、Bioethics、Biotechnology等数据库。MEDLINE收录了自1966年以来世界上70多个国家约4,000多种生物医学期刊上发表的论文的题录或文摘,其中大约有75%的文献为英文文献,文献来源以美国为主。目前MEDLINE的记录数已经超过了1,000多万条,覆盖了基础医学、临床医学、护理学、牙科学、兽医学、卫生保健、营养卫生、职业卫生、卫生管理等。数据库不提供全文,大多数文献都带有英文文摘。1