简介
计算机可读的、有组织的相关文献信息的集合。在文献数据库中,文献信息不是以传统的文字,而是将文字用二进制编码的方式表示,按一定的数据结构,有组织地存储在计算机中,从而使计算机能够识别和处理。文献数据库是当前通过遍布于全世界的通信网络进行联机情报检索的最早的和主要的处理和检索对象。
文献数据库起源于二次文献编辑出版的计算机化。20世纪60年代初,各文摘社为克服因信息爆炸而带来的困难,纷纷引进了先进的计算机技术。将经过整理、加工的文献信息输入到计算机中,由计算机进行编辑和排版,输出后排版印刷为文摘刊物和各种索引。同时,仍保留在计算机中的机器可读的文献信息,作为二次文献编辑出版的副产品,发展成为文献数据库。由于机器可读信息大多记录在计算机的磁带上,因此也称文献数据库为磁带版二次文献。早期的文献数据库有1964年正式对外发行的美国国立医学图书馆的医学文献分析与检索系统(MEDLARS),美国化学文摘社的(CACON)等。
文献数据库的内容与其传统的文献信息是相对应的。一种书刊或一篇文献的内容和形式特征经著录后形成一条款目。款目是文献信息的基本单位。在文献数据库中,一条款目称为一条记录,记录也是构成文献数据库的基本单位。款目由篇名、作者和主题等著录项目组成,著录项目在文献数据库中称为字段。一个字段又可细分为若干个子字段。这样,文献数据库是由一系列连续的记录、字段和子字段组成,并形成了一个分级树型结构。
分类按文献的编辑方法和出版特点可以将文献划分为图书、期刊、报纸以及介于图书与期刊之间的特种文献,主要包括科技报告、政府出版物、会议文献、学位论文、专利文献、技术标准、产品资料及其他零散资料如舆图、图片、乐谱等。将传统文献数字化成数据库以后,则成为不同类型的数据库,常用的数据库有电子图书数据库、数字化期刊数据库、报刊数据库、会议论文数据库、学位论文数据库、专利数据库、标准数据库、产品数据库、科技报告数据库等。可以按照文献内容或者外部特征某一方面的特点组织成一类文献数据库1。
文献数据库主要分为以下几种
全文数据库存储文献全文;
书目数据库存储内容为题录、文摘、提要或简介;
数值数据库是一种以自然数值形式表示,计算机可读具有一定结构的数据集合。数值型数据是人们从文献资料中分析提取出来或者是从试验、观测、统计工作中得到的;
事实数据库又称指南数据库。事实数据库是存储有关某些客体如机构、人物等的一般事实性描述的一类参考数据库。如人物传记数据库、公司名录数据库、技术标准库、产品目录数据库等;
术语数据库是一种计算机化的术语词典或词库;
图像数据库提供人们存贮和检索图像或图形信息及其文字说明的一种源数据库;
音频数据库提供人们存贮和检索音频文件及其文字说明的一种源数据库;
视频数据库提供人们存贮和检索视频文件及其文字说明的一种源数据库。
发展实验室阶段(1970年以前)这一阶段的主要特点是数据库随着计算机技术的产生发展而产生发展由于计算机软硬件技术的限制,数据库规模较小同这一阶段的计算机技术一样,数据库处于实验室研究阶段,还没有得到广泛的应用。数据库的发展是伴随着相关计算机软硬件的发展而发展的。最初人们发明计算机是为了解决越来越复杂的计算问题。1946年,第一台真正意义上的电子计算机在美国宾夕法尼亚大学诞生,标志着人类进入电脑时代。人们发现,计算机不但要能够进行计算,还要能够管理越来越庞大复杂的数据,数据库随之产生。最早的数据库可以追溯到20世纪50年代,那时的数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。例如1951年由美国调查局所建立的数值数据库。数据库的实用,首先应用在按字母顺序排列的、以磁存贮器为载体的书目数据库。这种于60年代初,用于文摘和索引服务的数据库,开始被改造为计算机控制的照相排字系统。1960年,美国国家医学图书馆着手设计其MEDLARS系统,1964年使用该系统进行医学文献的批式检索。1965年,美国化学文摘服务社,首先出版了磁带形式的《化学与生物领域》。同年,美国国家科学基金会、国家卫生协会和国防部,联合建立了化学注册系统数据库。1967年,生物科学情报服务社设立了磁带版发行机构。1969年,工程索引公司也建立了同样的机构。同年,美国国会图书馆发行了书目磁带1。
商业化初始阶段(1970~1990年)这一阶段数据库的特点有数据库技术研究与数据库的生产主要在美国数据库由单机检索向联机检索发展企业意识到数据库的商业价值,介入数据库生产,数据库商业化进程开始美国数据库数量增加,内容逐渐丰富;1970年以前,数据库的查找是批量方式进行的,这是在磁带上检索情报的唯一方法。由于计算机技术和磁盘技术的发展,使得在70年前后由批式检索向联机检索的转变成为可能。使用联机检索可对磁盘上的资料随机访问和采用交互方式修改策略。消除了批式检索的盲目性。美国空军的NASA实验室于1971年使用修改过的软件,在纽约州的医学图书馆,对数据库实现联机实时检索。同年,美国国家医学图书馆自己的联机系统投入运行。1972年起洛克希德公司开始为多家数据库生产者提供服务。1980年4月,BRS率先推出了由1000篇文献组成的全文数据库,这个数据库不仅提供标题、文摘,而且可以进行全文检索。同期的Dialog、Orbit、BRS等联机检索系统提供的文献检索服务主要集中在以期刊文献为载体自然科学及应用技术领域,如收购的数据库除了技术领域之外,更多地关注经济学、统计学、管理学及商业,则以专利和石油文献形成自己的特色。70年代中期,不单在美国。而且在欧洲,情报产业界开始认识到“联机革命”,数据库生产和联机检索,在英国、法国、联邦德国等国家迅速发展起来。
美国杰奇门在参考许多资料之后,认为书目和非书目数据库的总数,1968年为25个,1970年在50~100个之间。进入70年代后,美国更多的政府机构开始生产数据库,数据库的数量迅速增加,到1975年,总数已超过300个。5年时间数据库数量大体翻了两番。早年政府提供奖金的联机实验的成功以及数据库和联机检索在情报界的确认,刺激更多的营利机构着手生产数据库。1975~1980年间,除了数据库的数量持续增长。由个增长到个之外,内容多样化是这一时期的主要特点。许多数据库收录的内容是社会科学、人类学,以及人们普遍关心的事项或大众化的课题。所开发的商业性数据库,包括销售、金融、经济、工业厂商等,以及各种专业的课题,诸如房地产保险业务等。非书目数据库日益受到关注,各种指南和参考性数值数据库问世,全文数据库也日渐增多。
全球竞争及网络化发展阶段(1980年至今)这一阶段的特点是文献数据库数量激增美国以外的众多发达国家意识到数据库生产的重要性,纷纷鼓励本国数据库生产,数据库产业的竞争及对信息资源的争夺从美国走向全球。1980年以来,世界各国数据库数量增长速度加快,库容量激增。以美国为例,美国的数据库产业迅猛发展。我们可以从下表中可以看到:1975年数据库的数量还是以百计,十年后数据库数量则以千计,1985年的数据库数量是1975年的九倍,平均每年大约增加300个数据库。而数据库记录条数从0.52亿条发展到16.8亿条,记录条数翻了32倍多。从1985到1996年的十年间美国数据库数量增加了6490个,平均每年约增加600个。数据库记录条数也从16.8亿条增加到108亿条。数据库记录条数翻了6倍多。而从1996年2000到年的五年间,美国数据库数量增加了2364个,平均每年约增加460个。数据库记录条数从108亿条增加到152.5亿条,增加了41%的数据量。
1980年,以MDC的NEXIS为开端,原本数目很小的全文数据库,也开始明显增多。连报纸也转变为采用计算机控制的光电排字法,全文报纸数据库开始出现。数据库和联机产业日益为社会所承认。80年代初,家庭计算机销售量激增,于是数据库和联机服务应运兴起,以满足这种新的市场。一直位处前列的两个服务机构DIALOG和BRS,建立了供卫星通讯网络终端用户、使用个人计算机和采用简单提问语言查找大众化数据库的服务机构。前者的“知识索引”和后者的“BRS after black”,是为公众晚间安排的两项服务,以供查找大众化数据库。
跨入80年代以来,世界上其他发达国家开始认识到数据库产业对本国国民经济发展的重要价值,日本和欧洲的一些国家,独立自主地建立自己的数据库产业和联机产业。美国对数据库的垄断局面逐渐被打破。在欧洲,英国、法国、联邦德国等国家,大力推进情报产业,取得了巨大成就。其中法国推行独立自主方针最为坚决。法国生产数据库的机构超过100个。其中58个为政府机构服务。情报中心共有15个,其中主要的两个QUESTEL中心和G.CAM中,各拥有数据库三四十个之多。日本的数据库产业发展也很快,日本数据库一方面依靠进口,另外一方面政府向制作数据库的民间企业提供财政支持,以促进数据库产业的更快发展。1990年日本国产数据库只808个,国产化率为34.3%,到1998年其国产数据库达到1227个,国产化率为49.5%。苏联对其超大型的《文摘杂志》也建立了数据库。此外,澳大利亚,加拿大等国家均有自主发展数据库产业的政策和规划。