版权归原作者所有,如有侵权,请联系我们

[科普中国]-联机公共目录检索系统信息检索

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

发展概况

图书馆自动化最初主要包括数据建设自动化和信息检索自动化两个方面。
虽然有关建立自动化目录以提供馆藏检索可能性的文章早在60年代中期便已出现,但直到70年代中期,联机公共目录检索系统(online public access catalogue,简称OPAC)才出现在美国的一些图书馆中。出现伊始,它便受到人们的欢迎,“因为用户再也用不着花很多时间从沉重的目录抽屉里翻检排列紧密的陈旧卡片了”。至80年代中期,随着AACR2、ISBD等编目规范的普及和OPAC系统技术的逐渐成熟,欧美许多图书馆都着手建立机读目录数据库。一些较早的OPAC系统扩展了服务范围,由只向本地读者(local users)扩大到也对远程用户(remote users)服务,这使得OPAC本身及图书馆在社会中的作用得以强化。
当前,OPAC系统已发展到第三代。各具特色的OPAC运行在从PC到大型机的各种机型上,甚至还有专为儿童和盲人设计的特殊系统。“在所有信息检索系统中,OPAC可能拥有最多的使用者”。从发表文章的数量和角度可以看出,目前对OPAC的理论研究方兴未艾——从用户检索心理、检索行为到OPAC对图书馆工作流程的影响;从一馆的OPAC到OPAC网络,再到因特网上的OPAC,有单个的,也有群体的,有宏观的,也有微观的。

第一代OPAC早期,OPAC的潜在设计思想是“把一个已经存在的手工目录体系电子化”。因此,它所提供的内容和检索点都和卡片目录基本一致。其主要检索功能有两种:“首字母组合检索和短语检索”以及对“用户的检索入口和记录的访问入口进行逐字符的匹配”。当用户需要检索多个系统时,面对命令式的界面往往束手无策。另外,系统硬件也存在诸多缺陷,如存储容量小、网络数据传输率低、终端数量少等。
第一代OPAC的“设计思想简单且缺乏特色”,它比较适合图书馆工作人员和那些有丰富OPAC操作经验的用户,而不太适合初级用户,也不利于主题检索(subject search),因此它对图书馆信息检索效率的提高并未带来根本性的改变。它的界面多是命令式和菜单式的。前者,用户必须了解、记忆大量命令,而后者虽然减轻了用户的记忆负担,但其检索逻辑是先组的、线性的,并且用户会经常“迷航”。

第二代OPAC20世纪90年代,它在国内外图书馆中占据主导位置。较之第一代,它在数据库的内容和质量、系统检索功能及用户界面(user interface)三个方面都有较大的发展。
1、数据库

对信息实体主题内容的深度揭示,是图书馆目录体系的一个欠缺。一些OPAC系统通过在记录中加入目次、索引、内容注释(content notes)、文摘、图书评价甚至机读百科全书等途径来丰富其内容。卡耐基·梅隆大学已将Grolier Academic American Encyclopedia和American Encyclopedia Dictionary装入其OPAC。检索时,机读百科全书为用户提供特定主题的条目式背景知识。多媒体数据库、全文库、CD-ROM数据库也纷纷出现,这一切都使用户的检索更加容易,所获得的信息也更加丰富。
随着地区性图书馆的联合,出现了一些大型的联合书目数据库。利用联合书目库能实现“一地多检”,大大方便了用户。数据生产、存在、检索网络化和大型联合书目数据库的出现都使数据维护的重要性愈来愈明显。如何减少、避免库中的重复记录,如何提高各成员馆编目的质量,特别是如何进行联机规范控制(authority control),成为当时很多学者所讨论的焦点。
高质量的数据有利于网络特性的发挥。鉴于此,西方图书馆界在“联合——共享编目”的基础上,提出了“联合——共享维护”的思想,其意义在于:分散维护任务,共享维护成果。
80年代,OCLC及其成员馆的数据库查重工作,伊利诺伊州、WLN成功的联机数据规范控制工作都显示:不同系统、不同规模的图书馆可以合作,在局部工作上形成统一认识和工作流程,而且也只有基于“联合——共享”的思想,各图书馆才能解决网络环境中的问题。
2、检索功能
第二代OPAC的检索能力获得了一些发展,比如检索点增多,每个字段(field)都可成为检索点;一些系统的容错能力增强;匹配方式增多,出现了截词检索、相邻度检索、关键词检索和布尔逻辑检索等手段。“但总的说来,不管是检索点还是匹配途径都未有突破性进展,不能让人十分满意”。用户使用时仍有较大的认知压力(cognitive burden),如不同系统检索命令不统一;检索结果不能按相关性大小排序;关键词检索虽然在检索策略的拟定上自由度较大,但检索结果往往有大量不相关或相关性较小的文献,读者需花时间筛选甄别;布尔逻辑检索,其优点在于能利用逻辑组配检索复杂主题,然而对于较多用户,他们不熟悉“OR”、“AND”、“NOR”的作用与用法,所以使用者不多。
大量文献表明,加强主题检索是第二代OPAC检索的一个热点。
用户调查显示,主题检索是用户使用最多但同时也是出错最多的一种方式。它较之已知款目检索(known-item search)开放度大,并且更符合用户掌握信息的实际情况。但是,它要求用户将需求明确概念化,“表达用户需求的语词必须与系统的访问入口一致”,这使用户检索时认知压力大,并由于不熟悉词表和标引的不规范,使检索成功率小“OPAC主题检索的立意大为降低”。为此,研究开发者们想了很多办法来加强主题检索,如加强规范文档的建立;加强标引规范化,提高记录主题标目与规范词表的一致性;实行分类主题检索一体化等。
还有一些系统试图通过将自然语言检索(如关键词检索)与受控词检索结合起来提高效率。有的系统同时提供两种检索途径供用户选择;有的则当主题检索失败后,在经用户同意后或直接就进行关键词如标题词、文摘、附注的检索,这样无疑增加了匹配的机会。
3、用户界面
第二代OPAC的界面设计者在技术选择上有了更大余地。命令式界面不再成为主流,一些系统能够编辑用户的输入使系统容错能力增强,单纯由于用户输入错误导致检索失败的情况有所缓解;浏览(browsing)功能是第二代OPAC的一个重要特点,当用户检索目标不明确或一时难以表达时,系统可以根据用户的“暂定词”向其提供一段相关的主题词表或分类表,用户可选择适当入口词(search item)扩大选择余地,因为选择毕竟易于创造。另外,有一些机构认为应该设计一系列界面标准,比如统一的检索命令结构、统一的帮助信息格式及索引选项。
图形用户界面(grafic user interface,GUI)是这一代界面的佼佼者,其设计更注重艺术性和易用性。它采用了面向对象的设计思想,“引进了心理学和美学的知识与概念”,力图通过对文字、色调、线条、图形甚至声音等多种因素的合理搭配布局,使屏幕更赏心悦目,也使最终用户(end-user)学会检索;GUI集下拉、弹出菜单界面于一体,在一定时间和空间尽可能多地容纳和提供信息,但又不失其简洁性;另外,它允许用户通过点击窗口、图框、按钮等图形标识来选择、表明意向;用户还可同时打开多个窗口并行处理多项任务。GUI使得用户与系统的交流变得更为密切。
联机帮助、提示功能的增强也是这一代界面的特点。系统往往会通过简明的提示告知目前系统的行为,用户可以通过这些提示控制检索进程。

第三代OPAC第三代OPAC系统最大特点是使整个检索过程呈现一种智能化,整个系统更具亲和性和易用性。从这里,用户的检索结果不再是“信息的信息(information of information)”,而是信息本身,但是它的发展并不完善。
PACE(public access catalogue extention)是一种极具第三代OPAC特色的用户界面。其优点在于:当用户输入检索意向后,呈现在他面前的将不再是呆板、枯燥的字符反馈,而是形象地排列于“架”上的一本本“图书”(每本“书的大小,是根据MARC记录载体形态项的数据按比例缩制而成)。用户可以浏览每本书书脊上的信息,并可用鼠标点击感兴趣的书,于是“封面”被“翻开”,“题名页”向用户显示题名、责任者、出版者、分类号、文摘、甚至书评等。除此之外,用户还可通过分类号选择浏览“图书馆”中一排排的“书架”,……PACE采用虚拟仿真技术,让图书馆于人们头脑中的普遍印象出现在屏幕上,力图在屏幕上创造一个现实世界,从而使用户产生一种临场感、沉浸感,有一WYSIWYG (所见即所得)的效果。
除了PACE外,第三代OPAC还将拥有很多令人兴奋的特点,如自然语言检索、语音识别界面、超文本检索、多媒体数据库和检索结果相关性排序等功能。第二代OPAC的检索只能进行形式上的查找而不能进行概念上的匹配。第三代OPAC将具有概念检索的能力,它对用户提问和“文献中繁多的原文信息进行语义层次上的自然语言处理、匹配提供用户直接能用的信息”。Z39.50协议能使“具有不同数据库模型、数据存储方法和检索方法的系统相互理解、通信”,从而取消了不同系统、不同界面对用户的检索限制;“LC、OCLC等机构正在扩充MARC内容以反映近来发展的信息传送。MARC856字段包含了实物的统一资源定位标识(uniform resource locator,URL),URL所连接的就是实物的内容(全文文献、静态图像、动画或一段程序)。用户通过点击MARC记录或字段就可在终端上获得存
储在WWW服务器上的记录的真实内容”。WWW技术是因特网上发展最快的服务方式,很多系统都通过WWW界面向全球范围的用户提供检索服务,最大程度地实现了资源共享。因特网上目前有很多优秀的信息搜索引擎,如Yahoo!、GOYOYO等,它们就是因特网上的OPAC。GOYOYO是一个高度智能化的搜索引擎,已和全球2.4万个中文互联网页相连,网址是http://www.goyoyo.com。这些搜索引擎以惊人的速度寻找信息,并将其分类,提供检索。
我们可以设想一位第三代OPAC用户的检索过程:他坐在计算机前,先“拉开”一个“抽屉”,找到了需要的检索词,又“拿”过一支“笔”,点击输入……,当他选定了一本书后,系统马上显示出图书馆平面图并“告诉”他这本书的大概位置。而这时,旁边的终端前正有一位盲人在与系统进行对话:“I want theinformation about……”。2

开发趋势第一,应以用户需求为中心,增强检索功能,最大限度地满足用户快速、准确、全面地检索所需文献。OPAC 系统应充分借鉴国外系统的先进技术与经验,通过增加检索点、完善检索策略、提供二次检索以及提供各种输出方式等多种途径最大限度地满足用户检索需求。
第二,未来的 OPAC 将是一个集成图书馆各种资源的目录体系。用户不仅可以检索本馆各类文献资源,而且能够方便地查寻其它图书馆的书目资源以及数字化资源。而要实现 OPAC 与馆际各类资源的集成,最大范围地实现资源共享,不仅需要有先进的技术,更需要图书馆之间真诚的合作与不懈的努力,才能真正实现图书馆资源面向社会开放。3

常用分类全国期刊联合目录全国期刊联合目录是一个全国性、多学科、多文种的综合性数据库,创建于 1983年,是由中国科学院文献情报中心牵头研建、中科院长期支持的项目。它集成了400多家成员馆的馆藏期刊目录,可通过刊名、刊名关键词、首字母缩写、缩略识别刊名、ISSN号等途径检索。在检索连续出版物时,会给出收藏单位收藏年卷期的详细列表。该目录是确定国内期刊馆藏地的首选。

国家科技图书文献中心国家科技图书文献中心是一个虚拟式的科技资源机构,向用户有偿提供期刊、学位论文、会议论文、科技报告、标准等多种文献全文,同时支持文献检索、全文检索、目次浏览等功能。用户可以通过在线系统直接向文献馆藏单位发出申请。该检索系统数据更新及时、用户界面友好,并且免费提供检出文献文摘和馆藏信息。

CALIS联合目录公共检索系统CALIS联合目录公共检索系统可按照中、西、日、俄文四个数据库进行检索,记录的输出结果可以按照图书、连续出版物、古籍三种文献类型划分。同时可对检索结果分库显示,并且可以按照自己的喜好来排序。由于整合了全国众多高校的资源信息,该检索系统无疑是高校之间文献传递的好帮手。

联机计算机图书馆中心 (OCLC)OCLC拥有世界上最大的馆藏地点库,目前112个国家和地区超过6万个图书馆通过OCLC来实现资源共享。其中WorldCat是世界上最大的、由6万多个成员馆参加的联合编目数据库,它覆盖了从公元前1000年到现在的资料,目前已达6200多万条记录,数据每天更新,可检索世界范围内的OCLC成员馆馆藏。用户还可直接从检索界面跳转到馆际互借界面,向馆藏地发出文献传递的请求。

检索现状调查发现,在图书馆 OPAC 信息检索中,无论是经验老道的用户还是毫无经验的用户都采用了更适合于 Google 而非图书馆目录的搜索策略。具体表现在以下几个方面:
1、用户首选的搜索选项往往是任意关键词
习惯于因特网搜索引擎的用户想当然地认为,只要在图书馆 OPAC 的对话框中输入大范围的关键词,系统便会
判断他们的意图并获得理想的匹配结果,其思维模型是:给计算机的信息越多,得到的结果就越好。然而,图书馆目录除了运用较为传统的题名、作者、受控主题词等检索方式外,相当一部分系统不具备支持相关度关键词搜索结果的选项,因此检索结果的匹配率较低。这种搜索策略在搜索几十亿的因特网网站时很奏效,但对于严格按受控主题词匹配和布尔逻辑运行的图书馆目录来说则效果不佳。
2、用户极少使用布尔运算符
通常图书馆 OPAC 的设计目的是为了鼓励大家进行高级搜索,结合搜索字段使用多项搜索框和下拉框来挑选
and、or、或 not 等关联词。然而普通用户对布尔逻辑的运用不熟悉,加上检索字符串要求精确无误等原因,常常导致较高的检索失败率与信息漏检率,因此多数用户宁愿将大量搜索词输入一行,而不使用任何关联的布尔运算符。先前的图书馆目录和因特网研究也做出了关于使用布尔的类似报告。如有学者在对使用 Excite 搜索引擎的回顾中发现,在成千上万的网络用户中只有 8 名用户使用了布尔检索。另有学者观察到多数目录用户未能完成主题搜索项后尖锐地指出,现在是停止使用终端用户布尔检索系统的时间了,包括 OPAC,布尔检索系统具有根本性的缺陷,这种设计模型不能代表用户信息搜寻的行为习惯。
3、用户不善于运用同义词概念来修正搜索
当检索效果不理想时,用户的第一个反应通常是改变搜索类型,另外加一个字或是去掉一个术语以扩大搜索范
围,很少采用可能更为有效的同义词来进行替换。而替换相关概念的能力对于多数在线图书馆目录来说是至关重
要的,但这一技巧似乎连有经验的用户也不具备。同时研究也表明,在搜索习惯上,无论是新用户还是有经验的老用户也都表现出各自与因特网搜索习惯相类似的特征。3

检索技巧1、分析检索内容。要想确切了解所要信息的具体情况,就必须了解该信息的信息检索范围(标题、中文、外文)、检索时间(具体年份、近几年、近几周、近几天、当天)等。
2、注意选择数据库,限定检索范围,提高检索效率。

3、针对不同的文献类型和目的需求选择恰当的检索途径,如快速检索、高级检索等。

4、选择合适的检索词。为了提高检索的精度,应尽量选专指词、特定概念或非常用词,避免普通词、泛指概念。

5、恰当处理检索结果。当检索结果为零或检索结果太少时,就需要使用同义词、近义词或相关词,布尔逻辑符OR连接关键词来扩大检索范围。当检索结果太多时,可通过使用词组检索、使用大小写检索、使用特殊搜索选项、使用逻辑符(AND和NOT)、改变关键词及书名号等方法缩小检索范围。当检索不到结果时,首先检查是否输入关键词错误,如果还不能得到检索结果,可以看相关搜索的提示功能,也许能检索到你想要的结果。4