开发步骤
全文数据库的开发步骤包括数据准备、文本预处理、数据加载、数据检索和数据维护几个环节。
①数据准备是指对计划加载到尘文数据库中的数据进行收集、整理、归类等预先处理的过程。加载到全文数据库中的数据可以从多种途径获得,常见的数据来源有:电脑打字产生的文件,电子印刷产生的文稿,计算机网上传送的文件,电子出版物,图文处理产生的文件,专门组织人力录入建库等。数据收集起来之后,要进行一些简单的分类。一般是按照数据内容进行分类,同一类内容加载到同一库中,这样便于查找。分类对于数据量大的情况,效果比较明显。
②文本预处理包括规范格式和进行标引。当文献格式多种多样时,应加以整理,使文献的格式规范化。本预处理阶段完成的批式标引,不受全文数据库结构的限制,效率较高。这是在建立全文数据库之前,利用文字处理软件和专用自动标引软件对数据进行的标引。建立标引词表有几种途径可由系统建立者在浏览文本后编制,也可以由编者在计算机对文本中的词加上特殊符号后,由专用软件对其进行搜集、合并、排序、去重而成,还可以在前面基础上增加属性标引。
③数据准备好以后,便可以加载(拷入、输入)到数据库文件中去。加载数据可有单篇方式或批量方式。单篇方式一次加载一篇,适于平时文献随时加载的情况;批量方式一次加载多篇,适于集中大量加载的情况。
④数据库建立之后,便可根据全文检索系统提供的检索功能对数据库进行检索。
⑤全文数据库建立以后,需要经常对数据库的内容进行索引、更新、追加和整理,以保证数据库的实用性、有效性和完整性。对全文数据库的维护通常包括:全文数据库的结构定义,全文数据库的数据内容,全文系统中所用词表、存储空间的利用统计及调整。2
分类根据全文数据库中的信息内容呈现形式划分,全文数据库的类型主要有电子版图书、电子杂志、电子报纸等。
电子版图书一般与印刷版平行出版,并具有浏览、检索、排序、打印、套录等功能。电子图书可上网,提高了文献传输效率和文献的可获得性。电子图书的出现将改善(改变)人们的读书习惯。
电子杂志可使文献的检索同原始文献的获得结合起来。包含多期刊的全文库,可进行跨学科、跨刊种的全文检索,扩大获取资料的来源范围。由中国学术期刊(光盘版)
电子杂志社和清华同方光盘股份有限公司建设的中国学术期刊网(http://WWW.cnki.net),其中的中国期刊全文数据库收录的期刊3000多种,文献量600万余篇。
电子报纸把报纸文章和新闻报道通过数据库存储和管理,并可进行网上检索查询。《纽约时报》全文库Information Bank是这类数据库的先驱,后来被收入Mead数据中心的NEXIS系统之中。我国《人民日报》社和北京金盘电子有限公司合作发行的《人民日报全文数据库》光盘版,《中国日报》社和中国科技资料进出口总公司合作发行的《中国日报全文数据库》光盘版,是我国第一批新闻报业的全文数据库。2
结构全文数据库有多种结构形式。
一种结构是全文数据库由若干文库组成,每个文库划分为若干个文档,文档由若干信息载体组成,信息载体又细分为若干片断,片断指构成文本的自然段落,相当于字段。美国Mead数据中心的LEXIS就是这种结构。它是一个菜单驱动系统,一级菜单显示文库目录,二级菜单显示文档目录,待文库和文档选定后,系统开始接收提问。
另一种结构是全文数据库由若干个数据库组成,数据库下不设文档这一级结构,而是直接把信息载体分成字段存储。美国西部出版公司的WESTLAW就是这种结构,该系统中设有法院字段、审判员字段等,可提供多种检索手段。全文数据库结构与书目数据库相似,其主文档是以顺排形式组织的文本文件,倒排档则是对应于信息载体记录可检字段的索引文件。全文数据库记录的磁带格式一般也分头标、目次和数据部等几部分,在已有的全文数据库中,根据领域信息载体、数据库用户和设备的不同情况,采取不同的实现方法。3
特点与其他数据库相比,全文数据库有许多特点,主要表现如下。
①包含信息的原始性。库中信息基本上是未加工的原始文献,因而具有客观性。
②信息检索的彻底性。任何词、句、字皆可检索,还有可能看到某些边缘性信息。
③检索语言的自然性。可使用自然语言检索,并可使用布尔检索和位置检索,因而要涉及自然语言的理解。
④数据结构基本上是非结构化的,除了某些可规范的数据外,大量文本属于非结构化的,不便于关系数据库的处理。
⑤专业的全文数据库系统一般都采用“自动切词”技术
⑥好的全文数据库还备有知识库,可具有推理能力和联想式检索。
⑦基本上是封闭性的,数据不需更新,具有较大的稳定性。
⑧全文数据库一般占用的存储空间非常庞大,系统开销大,如何提高检索速度是一大难题。2
功能全文数据库具有强大的检索功能,表现在它能提供丰富的检索点,允许用户从信息载体的人名、地名、年代、关键词等多个角度进行单项检索或多项组配检索,甚至可对文本中任意字段进行检索。除具有布尔逻辑检索功能外,还具有字符的位置检索、截词检索等功能。检索结果可根据用户要求,按句、段、节、章输出(显示或打印)。
全文数据库具有一定的信息分析功能,可对检索结果再次处理,以进行人名、地名、关键词等的聚类、统计排序。
全文数据库还具有一定的信息计量功能,可对文本中的人名、地名、关键词等进行频率统计并排序。3
主要全文数据库源数据库中国期刊全文数据库
世界上最大的连续动态更新的中国期刊全文数据库,收录国内 8200 多种重要期刊,以学术、技术、政策指导、高等科普及教育类为主,同时收录部分基础教育、大众科普、大众文化和文艺作品类刊物,内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域 ,全文文献总量 2200 多万篇。按学科分为168个专题,每日更新,年新增文献100多万篇。
中国期刊全文数据库(世纪期刊)
收录回溯1979年至1993年的4195种期刊,部分期刊回溯至创刊,最早回溯至1887年,按学科分为168个专题,现有文献500多万篇,每月更新。
中国博士学位论文全文数据库
收录1999年至今420个博硕士培养单位的学位论文,现有论文5万多篇,每日更新。
中国优秀硕士学位论文全文数据库
收录1999年至今652个博硕士培养单位的学位论文,现有论文37万多篇,每日更新。
中国重要报纸全文数据库
收录2000年至今700多种重要报纸,现有文章645万多篇,每日更新,年新增文章120万篇。
中国重要会议论文全文数据库
收录2000年至今1200多家学术团体的会议论文,现有论文近58万篇,每日更新。
中国图书全文数据库
一期工程即将完成,首批3万种新书已上网服务,每日更新,年新增图书10万本。4
专业知识仓库中国医院知识仓库
收录1400多种医学期刊,108家医学博硕士培养单位学位论文,内容每日累增。
中小学多媒体数字图书馆
收录500余种教育类期刊,2000多种相关期刊,400余种相关报纸,以及多媒体教育教学素材、高初中同步教学辅导、高考中考名师辅导等,内容每日累增。
中国企业知识仓库
汇集企业所需期刊、优秀博硕士论文、重要会议论文、报纸全文、图书全文、新书目等数据资源。 涵盖企业所需各类信息资源、知识资源,利用现代信息技术进行加工整合,以最方便快捷的传播手段,为企业提供可有效利用的资源。主要分钢铁冶金、铝业、石油化工、石油天然气勘探、电力、发电、电网、金融、保险、证券、基金等各个行业、企业知识库,内容每日累增。4
知识元数据库数值型知识元库
包括从各类统计年鉴及各种专业文献中抽取的统计数据和科学实验数据。
理论与方法型知识元数据库
包括从各种百科全书中抽取的专业术语解释及从各种专业论文中抽取的观点、理论、方法和技巧等知识元。4