基本概念
用于信息检索评测的测试集一直推动着检索系统的研究、设计与发展。研究者进行信息检索评测的一般模式,是将需要查询的问题形成查询语句,输入检索系统,检索系统在文档集合内进行检索,将可能符合要求的文档提交给研究者,研究者再将得到的文档和标准答案作对比,以此评价检索系统的性能。因此,检索测试集主要由文档集、查询集、相关判断集三个部分构成。
研究现状国内外研究现状早期测试集最有影响的研究是Cleverdon在20世纪50年代末期开始进行Cranfield实验,它开创了以测试集及评测指标来评测系统的模式。目前在信息检索评测领域,国际上比较著名的是TREC(Text RE-trieval Conference)文本检索会议,它提供了大型(超过百万文档)的英文测试集,同时TREC也构建了小型中文测试集,但仅提供给参赛评测单位使用。国外比较小型的测试集则有CACM,ISI等,文档的语种类型多为英文。国内在构建测试集方面仍处于学习国外的阶段,北京大学已经建立了基于Web检索的大型中文测试集1。
用于信息检索评测的测试集一直推动着检索系统的研究、设计与发展。由于系统检索的过程高度依赖于文档的语言类型,已有的比较成熟的测试集所包含文档的语言类型多为英文,所以并不适合用以评测中文检索系统。中文测试集的缺乏,制约了中文检索系统的研究。目前已构建的大型测试集,都需要耗费大量的时间和人力,难以在短期内完成,并且检索系统进行测试本身也要耗费大量的时问与精力。对于不愿进行这样大投资的研究者来说,一个可选的方案就是使用能在较短时间内建立和测试的小型测试集。由于小型测试集的规模比较小,它可以灵活地添加一些大型测试集所不具备的特征,用于检验某些特定的搜索技术。此外,若能运用同一标准测试集对不同中文检索系统进行评测,则有利于评测结果的比较,其结果也将会更有意义。目前国内尚无建立起标准的可用于中文信息检索评测的小型测试集。因此,有必要构建一种小型中文测试集,用于信息检索研究的评测工作。
相关判断方法国外测试集一般采用以下两种方法减少相关判断人员的工作量:Pooling方法与Interactive Searching and Judging(ISJ)方法。
(1)Pooling方法:针对某一查询主题,所有参加评测的检索系统分别给出各自检索结果的前K个文档(如K=100),将这些结果文档汇集起来,得到一个可能相关的文档“池”(P00l),然后由检索评价专家进行人工判断,评判每一文档的相关性,将最终判定为相关的文档作为相关判断集,并按相关程度将其排序。不在相关判断集中的文档视为不相关文档。TREC采用Pooling方法来构建相关文档集。
(2)ISJ方法:测试集构建者使用一种可靠的搜索弓l擎来检索查询主题,通过人工分析检索结果,得到最符合查询主题要求的文档。在这一过程中,查询主题中术语的同义词也可作为查询条件用来检索。这个方法比Pooling方法更能节省时间,这些检索结果的精确度也更高。ISJ方法多用于小型测试集的构建。
检索测试集的构建检索测试集主要由文档集、查询集、相关判断集三个部分构成2。
文档集的构建基于以下四个方面的考虑,本文将文档集中的文档限定在计算机领域:
(1)能够做到所选用的文档尽可能地覆盖该领域的诸多方面,方便模拟真实环境;
(2)能够保证查询集在所限定的领域内具有广泛的主题内容;
(3)参加测试集构建的人员均为计算机专业人员,对计算机类文档认知度较高,能够提高判断的准确度;
(4)可以在较短的时闻内来完成对文档集的构建。在本文档集的结构方面,以检索文字资料为主,以单篇文档为最小检索单位。文档收集完成后,进一步做了一下两方面处理:
a.规定保存类型;
b.建立索引表。
查询集的构建查询主题的构建流程设计如下:
(1)根据文档集中文档内容的分布情况,将文档集划分成多个类别,在每个类别中根据文档的具体内容来创建查询主题;
(2)筛选由步骤(1)得到的查询主题。筛选分为三个阶段:
第一阶段,过滤叙述不清、不够详尽或过于主观的查询主题,将与文档集内容不符或变动过大的即时性查询主题删除;
第二阶段,考虑初步筛选之后剩余查询主题的相似性,避免出现相似性较高的查询主题;
第三阶段,对每个查询主题,预测可能相关文档的数量,判断查询主题的范围是否过于广泛或过于狭窄,初步预测查询需求的难易程度。
相关判断集的构建采用ISJ方法辅助构建相关判断集,主要通过以下几步来辅助构建相关判断集:
(1)确定一个可靠的检索系统。通过分析检索结果的精确度和使用的难易程度,决定使用谷歌中文检索系统;
(2)在查询集的构建过程中已经得到每个查询主题的关键词,格这些关键词及其同义词共同作为查询条件通过谷歌进行检索,得到若干文档的集合;
(3)确定检索结果中哪些是可以使用的文档,将最终确定的相关文档合并到文档集中;
(4)使用赋值方法,对新加入文档进行相关程度的赋值,并将结果加入到相关判断集中。