并行搜索引擎(又称集成搜索引擎、元搜索引擎、大型搜索引擎)是一种可同时检索多个搜索引擎,并以统一的检索界面返回检索结果的检索工具。
简单解说Metacrawler 是世界上第1个并行搜索引擎,它使用几大顶级搜索引擎(Google, hoo, About等)进行并行搜索,返回最相关的检索结果,从而使网页检索更容易。并行搜索引擎通过其转换功能,将检索用词转换为搜索引擎可接受的形式,并提交给搜索引擎,用于查找匹配记录、进行记录去重及检索结果整合。由于并行搜索引擎能协同检索多个搜索引擎,忽略其数据来源的结构差异,剔除相互之间的重复记录,并检验检索结果信息的有效性,因此可获得高质量的检索效果。
内容提要搜索是诸多计算任务中最基本的操作之一,通常是指从内存(或外存)的一批记录中按键找出所需的记录。搜索的目的是对所获得的键记录进行某种处理。所讨论的搜索是对词典(Dictionary)(一种能支持插入、删除、检索等的数据结构)和链表(List)(一种线性数据结构,其中各节点间以指针相连)施行操作。首先从单处理机上的串行搜索谈起;接着讨论SIMD共享存储模型上的有序表的搜索(从而导出并行搜索的时间下界)和随机序列的搜索;然后讨论SIMD互连网络模型上的词典操作(Dictionary Operation)。1
优势(1)检索信息扩大对Internet 的覆盖范围。研究表明,Internet 数据增长速度比独立引擎索引网络数据的速度快很多,导致主流的独立搜索引擎对Internet 的覆盖范围逐步下降,而并行搜索引擎可以缓解该矛盾。
(2)提高信息检索的扩展性。使用并行搜索引擎检索网络信息比使用集中化的独立搜索引擎更容易得到扩展。
(3)并行检索可以同时使用多个搜索引擎。用户只需要提交一次查询就可以使用多个独立引擎,不必熟悉每个独立引擎的检索界面,且并行搜索引擎可以对检索结果进行排序和冗余处理。
(4)提高检索效率。有时并行搜索的检索速度低于单个独立搜索引擎,但并行检索可以获得较大的结果集,为用户提供更有效的检索信息。一些学者认为未来的网络检索服务将由许多各自覆盖的小部分互连网的专业引擎协同提供。通用大型检索系统的任务将由并行搜索引擎代替。相对一些成熟的独立搜索引擎而言,并行搜索引擎仍然
存在缺陷由于并行搜索引擎基本没有自己管理的检索信息,因此无法获得检索信息的描述信息,且其检索质量还部分依赖于为其提供服务的独立搜索引擎,具体体现 在:
(1)并行搜索引擎可能不支持某些高级检索功能,比如高级布尔检索等。
(2)并行搜索引擎不会返回所有检索结果,例如,它只是将每个搜索引擎最相关的检索结果返回给用户,若某个独立搜索引擎在规定时间内没有响应,则忽略它的检索结果。
(3)因为独立搜索引擎之间一般都有重复纪录出现,所以并行搜索引擎必须面对信息冗余问题。文献[4]提出基于Agent的方法,包含自然语言分析器、查询定制、网页收回、网页过滤、网页排序和用户选项Agent来解决上述问题。本文基于网格的并行搜索引擎,参考文献的思想来解决并行搜索引擎的一些问题。2
本词条内容贡献者为:
殷晓莉 - 儿童心理专家 副教授 - 中国科学院心理研究所