基本概念检索测试查询
检索测试集主要由文档集、查询集、相关判断集三个部分构成。检索测试查询是检索测试集构建的一部分,由于查询集中查询主题的有效性跟文档集中文档的内容密切相关,所以通常根据文档内容的分类来进行查询主题的构建。每个查询主题可由四部分组成:查询标题、查询问题、主题说明和关键词。
检索测试查询即根据文档集中文档内容的分布情况,将文档集划分成多个类别,在每个类别中根据文档的具体内容来创建查询主题,然后筛选查询主题,避免出现叙述不清或相似性较高的查询主题。
检索测试集文档集是整个测试集的基础。由于信息检索的领域很广泛,如果将文档集中文档的类别涉及到诸多领域,在保证内容翔实的前提下,文档集的构建将耗费大量的时间和精力,后续的相关判断工作更是庞大,不利于构建小型的测试集。国外小型测试集的文档集的构建一般采用将文档集限定在某一领域的方法。如CACM文档集限定在ACM通信领域,ISI文档集限定在资讯科学领域1。
由于查询集中查询主题的有效性跟文档集中文档的内容密切相关,所以通常根据文档内容的分类来进行查询主题的构建。
相关判断集是判断碱索系统有效性的一个标准,在理想状态下,相关判断集合应该是一个完整的列表,包含每个文挡与每个查询主题的相关程度。当文档数量很庞大时,达到这样一种理想的结果耗费的时间和精力会很大。国外测试集一般采用以下两种方法减少相关判断人员的工作量:Pooling方法与Interactive Searching and Judging(ISJ)方法:
(1)Pooling方法:针对某一查询主题,所有参加评测的检索系统分别给出各自检索结果的前K个文档(如K=100),将这些结果文档汇集起来,得到一个可能相关的文档“池”(P00l),然后由检索评价专家进行人工判断,评判每一文档的相关性,将最终判定为相关的文档作为相关判断集,并按相关程度将其排序。不在相关判断集中的文档视为不相关文档。TREC采用Pooling方法来构建相关文档集。
(2)ISJ方法:测试集构建者使用一种可靠的搜索弓l擎来检索查询主题,通过人工分析检索结果,得到最符合查询主题要求的文档。在这一过程中,查询主题中术语的同义词也可作为查询条件用来检索。这个方法比Pooling方法更能节省时间,这些检索结果的精确度也更高。ISJ方法多用于小型测试集的构建。
查询集的构建查询集的构建流程设计如下:
(1)根据文档集中文档内容的分布情况,将文档集划分成多个类别,在每个类别中根据文档的具体内容来创建查询主题;
(2)筛选由步骤(1)得到的查询主题。筛选分为三个阶段:
第一阶段:过滤叙述不清、不够详尽或过于主观的查询主题,将与文档集内容不符或变动过大的即时性查询主题删除;
第二阶段:考虑初步筛选之后剩余查询主题的相似性,避免出现相似性较高的查询主题;
第三阶段:对每个查询主题,预测可能相关文档的数量,判断查询主题的范围是否过于广泛或过于狭窄,初步预测查询需求的难易程度。
每个查询主题可由四部分组成:查询标题、查询问题、主题说明和关键词,如下表所示:
查询集构建成功后进行相关判断集的构建。
实例分析随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,下面是大规模中文网页信息检索测试集CWT的查询集的构建过程2。
SEWM评测每年都会构建一些新主题,包括约70个TD主题和300个HPNP主题,为了使主题的描述方式等方面具有一定程度的一致性,主题集每年由2~3位专门的构建人员来构建。历年构建的TD主题按顺序编号,从1开始,至今已经编号到285。HPNP主题也是从1开始编号,至今已经编号到1,185,其中NP、HP主题约各占一半。
通过四年组织SEWM评测的实践经验,形成了构建主题的一般流程,介绍如下:
(1)分工。首先确定计划构建主题数,将其平均分配给两个或三个人来构建。将主题划分成多个领域类别,每人负责其中若干类别的主题。
(2)统一工作进度,确定主题选取尺度及主题格式。
(3)各构建人员构建主题。根据自己认为的主题好坏程度排序主题,较好的主题排在前面。
(4)集中统一主题。构建人员一起整理由步骤3得到的主题,得到最终的主题集。