概念理解
查询重构指基于用户原查询词,根据搜索引擎查询结果的反馈,用户或者搜索引擎自动更改或修正原查询词的行为。从用户角度来讲,查询重构是用户根据检索系统反馈的结果列表,不断修正原查询词,以期得到所需求信息的过程。从检索系统角度来讲,查询重构亦称查询式扩展,主要研究利用查询扩展技术,如关联规则挖掘、聚类算法、伪相关反馈等对用户输入的检索式进行扩展,使之更能代表用户真正的查询意图。根据查询重构的内涵,将查询重构分为两个阶段:用户构造初始查询并点击搜索;用户根据系统反馈的查询结果列表重构初始查询。1
发展对于大多数用户而言,构造检索词是一个富有挑战性的任务。搜索引擎大都基于关键词进行检索,用户必须用几个简洁的关键词来表示欲搜寻信息,这就可能导致用户不能很好地表达自己的查询意图。而用户的交互行为,如网页点击、用户反馈和查询重构等均能表达用户的查询意图。所以,通过分析用户交互行为中的查询重构行为,可使搜索引擎支持多种查询重构模式,并完善Web搜索引擎的设计。A.Spink等设计了Excite日志中用户查询重构的频率,发现1997年和2001年分别有52%和45%的用户重构原始查询词。1
国外已有搜索引擎实现了查询重构功能,如AltaVista的Refine Your Search、Google的Did You Mean?、Exeite的ZOOM IN。但是2001年Exeite查询重构工具ZOOM IN的评估机构发现:设计查询重构工具栏最应该考虑的不是接口的可用性和有效性,而是该工具推荐的查询词对用户的实用性。目前支持查询重构功能的检索系统大都仅支持格式或拼写错误的修正,不提供更多查询重构的功能。因此,查询重构内涵、作用机理的研究对完善搜索引擎的设计显得十分重要。1
类型查询重构类型与模式分别指查询重构策略的分类和一定时间或概念里,用户查询重构的序列。从用户角度来讲,查询重构是用户根据检索系统反馈的结果列表,不断修正原查询词,以期得到需求信息的过程。S.Y. Rieh和Xie Hong分析了Exeite搜索引擎上的313个信息搜索的查询会话。他们定义了3 类查询重构策略以及相关的查询重构类型,如查询语义的具体化、一般化、平行化、更改术语和更正错误。查询语义的具体化指重构的查询词与原查询词相比概念更具体,如用户通过增加单词或替换成概念更具体的词来提高检索相关度,得到需求信息;查询语义的平行化指当用户修改原查询词时,从另外一个方面去构造该主题不同方面的查询词;查询语义的一般化指当用户没有得到相关文档时,通过删减查询词或使用更一般性的词来替代原查询词,从而使查询结果相关。J. Teevan等基于雅虎的用户搜索日志,探索用户的重复检索行为,并识别了查询重构类型,如词合并、删除词、抽取词干、多元化搜索。B.J. Jansen 和 A.Spink 等对用户查询重构进行聚类得到以下几种策略:查询语义的具体化、一般化和更改内容。Guo Jiafeng 等在2008年将查询重构的类型定义为拼写错误、拆分词、合并词、切分短语等。2009 年,J. Huang 和 E. Efthimiadis探测到 13 种查询重构类型,包括词的重排序、增加空格和标点、删除词等。2011 年,B. Boldi 等开发了一种算法,自动追踪查询重构的类型。该算法观察用户在Web 搜索引擎上的查询重构行为,并自动划分成不同类型,如查询语义一般化、具体化和更改错误。1
模式研究查询重构模式的研究主要分为3个方面:一是查询重构模式的内涵;二是基于转移矩阵,研究不同重构策略间的转移概率;三是基于状态预测模型,根据当前查询重构策略预测下一重构策略。对于重构模式的内涵,只有 Xie Hong于2001年初次研究探索,在2006 年进行了补充,并最终根据用户搜索日志总结了8 种查询重构模式(specified、generalized、parallel、building-block、dynamic、multi-tasking、recurrent、format),但对于这 8 种查询重构模式的具体定义及其应用却没有后续的研究。相比之下,更多学者较为关注重构策略间的转移概率,如 B. J. Jansen 和 A. Spink 等利用转移矩阵列举了6 种重构策略间相互转移的概率,发现大多数用户在使用一般化查询重构后会使用具体化查询重构来缩小查询范围;而且,在初始查询时使用具体化重构来缩小查询范围的频次较高;具体化查询重构是网络搜索者的首选。P. Boldi等基于查询词流转图证实:具体化查询重构一般紧随一般化查询重构策略,且具体化查询重构发生在搜索开始阶段的频次较高。查询重构策略间转移概率的研究,是为了探索查询重构策略间是否存在紧密联系。所以有学者运用状态预测模型,预测用户重构策略,以便系统向用户推荐高概率的查询词。B.Jansen 和 D. Booth 等应用 n-gram 模型,基于当前重构策略预测下一重构策略,并分别建立了 1 阶、2 阶、3 阶、4 阶模型及相应的模型评价指标。实验表明,1 阶、2 阶模型能较好地预测重构模式,解释用户何时需要系统帮助、何时使用不同的重构类型等问题,从而为检索系统的设计提供参考。1
绩效研究许多学者曾经尝试对查询重构效率进行评定。基于13种查询重构策略,J. Huang 和 E. Efthimiadis根据用户的点击行为,评价不同查询重构策略的效率,发现一定的重构策略,如增删词、替换词、缩写词的扩展以及修正拼写错误能有效地提高搜索结果的质量。2010 年,Liu Chang 等发现查询重构效率随着搜索任务类型改变而改变。例如,在简答任务类型中,具体化查询重构相对更有效率,然而在平行结构搜索任务中,替换词是查 询重构类型中最有效的方法。2011年,S.Joo 和 J.Lee基于信息检索日志,研究了查询重构对提高搜索结果的影响,发现平行化查询重构比一般化和具体化重构方法更能使用户得到满意的搜索结果。1
目前,对于影响用户搜索行为和检索绩效的研究较为广泛,但从查询重构角度对检索绩效进行研究的还很少。研究结果表明:平行化查询重构最能提高用户对检索绩效的自我评估,而一般化重构方法对提高用户自我评估的检索绩效最不理想; 查询重构对检索绩效的影响还与搜索任务有关。查询重构绩效研究是为了比较各查询重构策略对提高用户搜索结果质量的作用,试图从绩效的角度探索各重构策略对用户搜索行为的影响。但是,单研究各重构策略搜索行为的绩效差异,还不能从根本上解释为何不同情境下用户会采用不同的重构策略,从而产生不同的搜索绩效。于是更多的学者从影响用户查询重构策略选择的因素角度,分析不同特征群体查询重构行为的差异。1
影响因素人机交互行为的研究是用户查询重构研究的基础,关于影响用户搜索行为因素的研究已经比较成熟。由表 1 可知,用户领域知识影响搜索性能( 完成任务的步骤数、时间、检索到的页面、访问页面种类) ; 认知方式显著地影响 Web 搜索性能( 检索时间、检索相关信息遍历的节点数) ; 话题熟悉度、搜索技能与用户选择搜索策略行为有关联; 任务类型是影响用户搜索行为的重要因素( 任务完成时间、文档相关性判断时间、眼睛注视时间等) 。1
在用户交互行为研究的基础上,学者也观察了用户的领域知识、系统知识、搜索技能和用户认知能力与查询重构行为的关系。2005 年,H. A. Hembrooke等详细地观察了用户领域知识对查询操作的影响,包括构造查询词和更改查询词。他们发现专家用户偏向细化查询词,并构造复杂查询语句,然而普通用户惯用简单的查询策略,如增减复数,增加冗余词,回溯等。Liu Chang、J. Gwizdka 和 N. J. Belkin观察了用户的认知能力和查询重构行为的关系,发现具体化查询重构和单词替换是使用最为频繁的两种重构策略,且用户的个人认知能力对查询重构行为无显著影响。S. Joo 和 J. Lee探索了领域知识和系统熟悉度如何影响查询重构的效率。他们采用了多重回归分析方法,发现领域知识和系统熟悉度在重构查询词时,对搜索结果的影响不显著。Hu Rong 等从用户的角度,观察用户的话题熟悉度和搜索技能对查询重构的影响研究,认为话题熟悉度和搜索技能对查询重构在统计上无显著影响,但对话题较为熟悉的用户会出现较少的拼写错误,并且乐意用具体化重构方法。1
任务的类型是另一个影响查询重构行为的因素。Liu Chang 等研究了信息检索的任务类型与查询重构策略的关系,实验结果表明,用户查询重构模式随着任务类型的变化而变化。例如,在简答任务类型和层次结构任务类型中具体化查询重构方法使用更为频繁。I.Xie 和 S. Y. Joo发现,相对于职业或娱乐搜索任务,查询重构策略在学术搜索任务中的使用较为广泛。1
查询重构影响因素研究是在信息搜索中人机交互行为研究基础上,从用户查询重构角度分析影响其搜索行为的因素。由表可知,主要是从用户的领域知识、系统知识、搜索技能和用户认知能力几个方面分析用户情境因素与查询重构行为的关系。用户查询重构研究主要是从用户角度研究查询重构的类型、绩效及影响因素,而信息搜索是用户和系统共同参与的过程,查询重构研究也应该从用户查询重构和信息检索中查询式扩展技术研究出发,以提高检索系统的查询重构功能。1
目前的研究与局限目前,用户查询重构行为研究主要集中在两个方面: 一是构建查询重构状态转移矩阵; 二是识别影响查询重构的群体特征。针对第一个方面,根据用户查询历史和重构过程,计算查询重构策略间相互转移的概率,构建查询重构状态转移矩阵,从而向用户推荐高概率的查询词。对于第二个方面,统计不同特征群体的查询重构频次,研究群体特征,如领域知识、系统知识、搜索技能和用户认知能力等对用户查询重构行为的影响,进而针对不同群体个性化地推荐查询词。1
同时,目前有关查询重构的研究也存在一定的局限:1
1、大部分设计实验采用了小样本数据;
2、分析查询重构影响因素的研究,多采用统计查询重构策略频次的方法,并没有考虑查询重构模式中的时间序列特点;
3、查询式扩展技术研究没有结合用户的查询重构行为,没有体现查询重构是系统和用户交互结果的特点;
4、中文文献中关于查询重构行为的研究大多从检索系统的角度探讨如何提高系统的自动化查询重构效率,而对于信息搜寻中用户的查询重构内涵、作用机理、影响因素的研究几乎没有。