版权归原作者所有,如有侵权,请联系我们

[科普中国]-在线词库检索

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

简介

在线词库检索是指通过联网的方式在词库中查询想知道的词语的语义解释或通过检索词检索有关内容。与在本地词库相比,在线词库的词汇总量和解释差不多是时时刻刻在更新,因此,在线词库检索的内容时效性和权威性更好。要想在线词库检索,与词库生成理论分不开,词库生成理论关系到检索内容结果的好坏。在线词库检索是典型的客户服务器模式。

生成词库理论生成词库理论是基于计算和认知的自然语言意义模型,关注词义的形式化和计算。该理论的核心思想是,词的意义是相对稳定的,但词与词在组合中,可能会通过一些语义生成机制(组合机制)获得延伸意义,可以通过丰富词项的词汇特征和语义生成机制来解释词的不同用法以及在上下文中的创新性用法。其理论框架主要包括两大部分:词项的词汇表征和语义生成机制。词项的词汇表征包括四个层面:论元结构、事件结构、物性结构和词汇类型结构。物性 结构是词库生成性特征的核心,包括四种物性角色:构成角色、形式角色、功用角色和施成角色构成角色描写事物与其组成部分之间的关系,包括材料、重量、部分和组成成分等;形式角色描写事物在更大的认知域内区别于其他事物的属性,包括方位、大小、形状和维度等;功用角色描写事物的目的和功能;施成角色描写事物是怎样形成或产生的。以“书”为例,它的构成角色包括封面、封底、章节等,形式角色包括书的大小、形状等,施成角色和功用角色分别是“写”和“读”。需要说明的是,每个角色的赋值可 能 不止一个。例如,“出版”也可以看成“书”的施成角色。除了上述四种角色,最近,自然功用角色和规约化属性也开始被纳入广义的物性结构。自然功用表示事的天然功能,与意图和目的无关。如“抽压血 液”是“心脏”的自然功用。规约化属性指事物的典型特征,包括自然物的典型用途、与事物相关的常规活动等。例如,“叫”是“狗”的规约化属性,“消化”是“食物”的规约化属性。

语言结构的语义并不总是语言成分的语义的简单相加,可能会出现语义缺省(semanticdefault)、 语义富余(semantic redundancy)和语义限定不足(semantic under- specification)等况, 在上述词汇语义结构的基础上,通过一系列的组合机制可以将词汇在不同语境中的动态性意义表示出来,从而能够正确地生成语言结构的语义。这些组合机制包括:

纯粹选择(pure selection):函项要求的类型能被论元直接满足;

类型调节(type accommodation):函项要求的类型能从论元继承;

类型强迫(type coercion):函项要求的类型被强加到论元上,通过两种方式来实现—强迫利

用(coercion by exploitation):提取论元类型的一部分来满足函项的要求;强迫引入(coercion by

introduction):把论元包装成函项所要求的类型。通过这些组合机制, 词语之间的语义组合以及组合之后所带来的语义变化过程能得到反映,从而可以解释语言中的多义、意义模糊和意义变化等现象1。

检索词检索词是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索途径相对应,是检索途径的具体化。如主题途径的检索标识就是主题词,分类途径的检索标识是分类号,著者途径的检索标识是著者姓名,其他的则依此类推。

检索标识的类型按照规范化程度不同,检索标识可以分为三种类型。

(1)规范词是从检索工具或系统的叙词表、主题词表或分类表等词表中选取的规范化的字词、词组或号码,因为词表是数据库标引和检索必须共同遵循使用的检索语言。为了使检索提问标识与信息特征标识相一致,获得最佳的检索效果,应优先选用规范词。

(2)规范化的代码索引代码是检索工具或系统为某些主题范畴或主题概念规定的索引单元,这类单元有很好的专指性,是一种有较好检索效果的信息特征标识。如国际专利分类号IC=、PTS数据库的产品代码PC=、标准工业代码SC=等等。

(3)自由词是来源于文献信息且具有实质意义的字词、短语或号码。使用自由词检索能够充分利用系统的全文查找功能2。

按照表达文献信息特征的形式不同,检索标识可分为四种类型。

(1)表示主题的检索词,如标题词、单元词、叙词、关键词等。

(2)表示分类的检索词,如分类号等。

(3)表示责任者的检索词,如作者姓名、机构名等。

(4)表示特定意义的检索词,如分子式、专利号、ISBN号、ISSN号、引文标引词等。

选择主题词、关键词、分类号三种检索标识在课题检索中使用较多。一般说来,主题词因其种种优点是检索时的首选。若无主题词途径或无与检索概念一致的主题词,机检可考虑单用自由词(关键词)检索或由上位词与自由词联合检索,或分类与自由词联合检索;手检可选其上位词或分类途径,从中筛选。

主题词

选择主题词应注意其历史变化和相关主题词,扩展下位主题词,提高查全率,检索一个主题的所有方面时组配“全部副主题词(All Subheadings)”,有选择地组配副主题词时注意所选词副主题的适用范围。头脑中有一个检索概念,怎样获取恰当表达这个概念的主题词是初学检索者常遇到的难题。将检索概念先用自然语言表达成自由词,到机检数据库中进行检索,如果检出结果较多,可限定检索字段,如题名、关键词字段等与文献论述的主要内容密切相关的字段。浏览检索结果,查看密切相关文献的主题标引情况,获取该概念及相关概念的主题词表达形式(单个主题词、主题词与副主题词组配、多个主题词的组合等)。

关键词

关键词检索时要全面考虑和使用关键词的不同拼写形式和同义词,注意带连字符的词的检索,“NEAR”等位置算符的使用、限定字段检索时字段的选择等。获取关键词的不同拼写形式和同义词,可浏览其自身的检索结果,可检索其缩写。此外在CBMdisc所有字段中检索已知英文词,查看结果中TI字段与TT字段的对照及文摘字段可获取不同形式的中文关键词,反之在TI字段检索中文词,通过TI字段与TT字段的对照可能获取检索概念的不同英文表达形式。

分类号

分类检索专指性低,通常文献的筛选量较大,机检中一般不单独使用,可与关键词等配合使用。课题检索中一个检索概念可能涉及多个类目,需注意相关类目的选择。

客户服务器模式客户服务器模式(Client–server model)简称C/S结构,是一种网络架构,它把客户端(Client) 与服务器 (Server) 区分开来。每一个客户端软件的实例都可以向一个服务器或应用程序服务器发出请求。

客户服务器模式通过不同的途径应用于很多不同类型的应用程序,最常见就是目前在因特网上用的网页。例如,当你在维基百科阅读文章时,你的电脑和网页浏览器就被当做一个客户端,同时,组成维基百科的电脑、数据库和应用程序就被当做服务器。当你的网页浏览器向维基百科请求一个指定的文章时,维基百科服务器从维基百科的数据库中找出所有该文章需要的信息,结合成一个网页,再发送回你的浏览器。

C/S模式是一个逻辑概念,而不是指计算机设备。在C/S模式中,请求一方为客户,响应请求一方称为服务器,如果一个服务器在响应客户请求时不能单独完成任务,还可能向其他服务器发出请求,这时,发出请求的服务器就成为另一个服务器的客户。从双方建立联系的方式来看,主动启动通信的应用叫客户,被动等待通信的应用叫服务器。