用户模型
用户模型可以有效解决不同用户对相同检索关键词的不同深度和广度的要求,而传统的信息检索流程在加入用户模型之后,将变更为带着用户兴趣查找的过程,同时反馈流程也将针对个体用户的意见进行,以提供更为准确和友好的检索服务。用户模型的建立是基于用户兴趣的信息检索的基础和核心,通过用户模型记录用户的兴趣所在,挖掘用户的潜在兴趣需求,对用户兴趣进行管理。同时,由于用户兴趣是不断变化的,所以用户兴趣模型需要根据用户行为进行不断更新。2
用户模型作用1、管理用户个人信息:对用户的自身信息和背景信息进行管理,如用户名、用户年龄、教育背景、从事职业等,在查询的过程中,同时考虑用户的背景信息,有助于更加对口的查找到用户所需的信息。
2、管理用户兴趣:这是用户兴趣模型的主要作用之一。提取用户兴趣,并对其进行适当描述,对用户兴趣进行管理。当用户频繁查询某个领域或者是某个方面的内容时,用户模型就会通过预先设定的一些规则将其归纳为用户的一个兴趣,并且根据知识之间的相近、相关等属性对用户兴趣进行扩展。同时,为了更加准确的反映用户兴趣,需要对用户兴趣进行不断更新。对于用户兴趣的管理,可以由用户直接建立和修改来进行,也可通过机器学习等方式进行。
3、管理用户历史查询行为:用户历史查询行为在整个查询过程中也将成为一个重要参考内容。该功能用于记录用户的历次查询行为,如查询请求的描述、限定的要求(如对现实结果的要求)、查询的时间、查询的次数等等。用户可以浏览历史查询记录,同时可以修改历史查询进行新一轮的查询。2
用户模型分类从不同的角度可以对用户模型进行如下分类:
(1)按照建模的对象划分,可以分为组用户模型和单个用户模型;
(2)按照信息源划分,可以分为显式模型和隐式模型;
(3)按照时间尺度划分,可以分为长期模型和短期模型:
(4)按照更新方式划分,可以分为静态模型和动态模型;
(5)按照表现形式划分,可以分为基于属性的模型和基于知识的模型等。2
用户兴趣挖掘用户主动提供可以在系统中设定兴趣提交模板,让用户选择一些关键词、或者回答一些问题,完成用户主动设定信息需求,比如:职业、研究方向、兴趣领域、喜欢的非专业书籍等;用户输入答案后,系统进行目标标识,对其进行聚类,形成用户的不同兴趣方向。但是该方式首先需要用户花费时间主动参与该项工作,其次用户需要事先明确并总结自己的信息需求。并且,由于语言表达和分类的模糊性与多样性,利用这种方式很难真正全面、清楚的表达用户需求。另外由于用户的兴趣是不断变化的,不同时期具有不同的兴趣,如果用户没有将自己变化了的兴趣提交给系统,系统就无法获取用户新的兴趣和需求,也就无法根据用户的新需求向其提供所需的信息。
跟踪和分析用户浏览行为用户的浏览行为,包括用户在每一个页面上驻留的时间,对每一个页面进行的操作(如保存、下载、打印页面、将页面加入收藏夹等),以及用户浏览页面时眼睛的移动、表情的变化等都能较好的反映用户的兴趣。
一般来说,用户会将其很感兴趣或者认为很重要的页面进行收藏、下载和保存。并且,为了将来的方便访问和管理,用户还会对收藏的页面或者下载保存的资料进行分类整理,以便将来能够更为快速方便的访问。但是,相对于用户浏览过的页面而言,用户收藏、下载、保存的页面只是其真正感兴趣页面的一小部分,用户并不会将全部感兴趣的页面进行收藏、下载、保存。
与用户收藏、保存、下载的页面相比,用户浏览的页面可以更为全面的反映用户的兴趣。而且,用户浏览的页面可以由系统自动保存,不需要用户提供任何帮助,可以实现自动用户建模。但是用户浏览的页面并不总是其感兴趣的,其中可能包含很多无关页面,因而通过浏览页面构建用户模型的时候要注意避开噪声页面。
用户浏览行为同样可以反映用户的兴趣所在,比如用户在某一个页面上停留的时间较长,可以表明用户对该页面较为感兴趣,可以通过一种非线性的转换方法将用户的浏览时间转化为用户兴趣度,获取用户信息。
服务器端挖掘用户的登录、浏览记录以及用户的访问行为都记录在因特网中服务器上的日志文件中。通过对分析这些日志文件可以获取用户已浏览过的页面集合以及浏览这些页面的时间长度,从而可以理解用户的行为。
代理服务器日志可以记录用户对所有网站的访问,因而通过代理服务器日志可以全面反映用户兴趣。相比较而言,网站服务器仅记录了用户对网站的访问,而对于用户访问的其它网站信息一无所知,因此通过网站服务器日志构建的用户模型反映用户在网站中的兴趣,不能全面反映用户兴趣。不过对于网站而言,网站服务器日志是用户建模的最佳信息来源,通过服务器日志构建用户模型的实质是通过用户访问的页面和浏览行为进行建模。由于服务器日志不能记录用户对缓存在cache中的页面访问,因而服务器日志不能准确反映用户的访问,尤其是用户的浏览行为。
可以通过以下两种方式来实现从服务器端获取用户的相关信息:一般的访问模式挖掘和个性化的使用记录挖掘。一般的访问模式挖掘通过分析使用记录来了解用户的访问模式和倾向;个性化的使用记录挖掘则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。
系统被动学习被动学习是系统根据用户兴趣向用户推送从因特网搜集来的页面,系统根据用户对推送页面的评价进行分析,从而分析出用户兴趣,系统再根据用户兴趣进行新的信息推荐。2