信息检索模型是表示文档、查询及其相关度的模型。
主要分类主要有四种:布尔模型、向量空间模型、语言模型和概率模型。前三种使用同一框架,认为文档和查询是由一组单词构成的,忽略词的顺序和在句子或文档中的位置。
特征文档集合的所有词汇是整个空间,每个文档表示为该空间上的一个词向量,每个词对应一个权值,不同的模型对权值的计算方法不同。查询亦表示为类似的一个向量。通过对文档和查询的表示,计算它们之间的相关度,可找到符合查询的相关文档。1
本词条内容贡献者为:
苏智勇 - 副教授 - 南京理工大学自动化学院