[科普中国]-精确匹配检索-

背景

近年来，互联网的普及大大促进了信息检索技术的发展和应用，正如上文提到的一批搜索引擎产品已经产生，为用户提供了很好的快速信息获取和网络信息导航工具，目前最著名的搜索引擎包括Google、AltaVista等，国内百度的中文搜索引擎也取得了很好的成绩。

目前搜索引擎面临两个主要挑战：一是检索的质量仍然需要提高。常常检索的是大量的无用的结果，真正有用的结果却被淹没在其中不容易发现。搜索引擎的索引和以前相比已经有了极大的增长，一般检索时都会返回大量的结果。但是人们查看和选择结果的能力与耐心没有得到相应的提高，通常还是只会注意最前面的部分。因此，搜索引擎的“精度”，尤其是检索结果排在前面的部分对于用户的有用性。是非常重要的，有时候相对于查全率来说显得更加突出。

基本概念在文献检索中，模糊匹配是指无论词的位置怎样，只要出现该词即可。精确匹配是指只有整个字段与检索词相同才匹配。精确匹配是指将输入的检索词当固定词组进行检索，而模糊匹配则会自动拆分检索词为单元概念，并进行逻辑与运算。

精确匹配检索设计精确匹配模型在“布尔模型”、“向量空间模型”和“概率模型”基础之上，下面是一种信息检索精确匹配模型。采用国标汉字字符集GBK/2：GB2312中包含的6763个汉字作为文档特征项1。

①文档特征项可以表示为向量形式：，其中n=6763，代表国标汉字字符集GBK/2：GB2312中包含的6763个汉字中的某个特定汉字。汉字编码是用双字节形式，编码分为9个区，高字节分别为：B0～B7，B8～BF，C0～C7，C8～CF，D0～D7，D8～DF，E0～E7，E8～EF，F0～F7；相应的低字节编码均为：A1～FE。

②假设被检索文档为D。其向量表示形式为：其中n=6763，。在集合{0，1}中取值。如果特征分项在文档D中出现，即 ∈D，则相应 =1；如果特征分项在文档D中没有出现，即不属于D，则相应 =0。
⑧用户查询可表示为Q，其向量形式为：。这里的m值理论上不受限制，但从实际出发考虑m应该小于等于n，为了方便两个向量的运算，在此取m=n(差项用数字0填补)。同样在集合(0，1}中取值。如果特征分项在文档Q中出现，即 ∈Q，则相应 =1；如果特征分项在文档Q中没有出现，即不属于Q，则相应 =0。
④将向量D、Q做数量积运算，设向量D、Q的数量积为R。

i)如果R=0，则说明用户检索条件在被检索的文档中不存在。
ii)如果R≠0，下面继续判断。计算。
ii)如果0

[科普中国]-精确匹配检索

微信扫一扫：分享