定义
由于在线社交网络信息传播速度快和受众多等特点,大量有着商业目的的话题推广活动在社交网络中展开。在这些话题推广活动中,大量的水军用户被组织起来发表和传播特定的信息。在微博中,水军是一种特殊的垃圾用户,他们被组织起来发表、回复、转发博文或提及他人(@ 用户名),以达到快速传播目标博文的目的。大量的有目的甚至不真实的博文在社交网络中传播,不仅让正常用户无法看清事件的真相,而且会对他们造成误导,造成不良的社会后果。例如,中国著名导演陆川宣称他的电影《王的盛宴》遭受网络水军的严重诋毁,严重影响了此电影的票房。为了减少网络水军造成的负面影响,研究网络水军的群体特性及其检测方法具有重要意义。网络水军是一群有着特殊目的(如商业推广目的等)的在线用户,他们被组织起来在社交网络中发布大量的推广信息,使得话题是自然传播的还是人为推广的难以分辨。
水军特点水军与传统的垃圾用户存在以下几点不同。第一,典型的水军具有很强的群体特征,而垃圾用户通常强调的是单个用户。第二,水军有可能对个人、公司或组织造成伤害,而垃圾用户通常只是增加垃圾信息。第三,水军既可以是被平台API(如新浪微博开放平台API)控制的程序机器人,也可以是公司的雇员或者临时招募的人员等真实的用户,这与传统研究的程序机器Twitter bot等不同。第四,水军通常比垃圾用户更隐蔽。很多水军在通常情况下是正常用户,只有在特定任务到来时才表现出水军的特质,这增加了水军检测的难度。淘宝、亚马逊等电子商务网站中的意见垃圾用户(Opinion Spam) 也是水军的一种,但是意见垃圾用户的检测通常是基于电子商务网站的用户评论进行的。
水军来源水军网(http://www.shuijunwang.com,目前已被关闭)是一种供在线用户获取水军兼职工作的网络平台,这类网站可以帮助公司、组织等在短时间内召集大量水军。用户可以从这些网站上获取一定的报酬来帮助公司、组织等完成一些特定的任务,如发表广告博文的任务等。这些水军的行为会带来一些负面影响,如有很多博文变得难以相信,因为水军们经常发表不加思考的雇佣方提供的博文。对于一个特定任务,通常有组织者团队(Organizers)负责组织此推广活动,通常有三组人员为他们工作。第一种是资源组(Resource Team),其负责为推广活动提供素材,如博文内容、图片、视频等,其成员可能是作家和图片、音频、视频制作专家等。第二种是内容发布者(Poster Team),其任务是将资源组提供的素材发布到特定的网站中,其通常是一个公司、组织的雇员,或公司控制的僵尸用户(如通过新浪微博API控制的僵尸程序),或是从水军兼职平台临时召集的用户。第三组是观察和评估组(Observation and Evaluation Team),其通常评价己方推广活动的成果和分析敌方的应对,为组织者的决策提供支持。
水军发现方法宋(Song)1等认为基于用户行为特征的方法具有易伪装性而使得此类方法效果不佳,如果网络水军掩饰自己的被该类方法检测的行为,那么此类方法难以进行检测。他们认为用户间的关系网络相对于用户行为更加稳定,因此他们提出了基于用户关系网络的水军识别方法。他们利用用户间距离和用户关系强度等特征使用多种分类器进行学习,实验发现推特(Twitter)中的只有少数正常用户被水军发布的意见所影响。克里斯特尔(Krestel)2等在标签分享站点中建立用户、标签和网络资源的关系结构,然后给定若干种子节点为水军的概率值,假定与水军相邻的用户也很可能为水军,即节点为水军的可疑度是可以在网络中传播的,据此计算得到所有用户为水军的概率值。巴特(Bhat)3等发现社交网络水军也会组成社区,他们利用用户行为日志抽取用户交互图并发现水军的重叠社区。他们在数据集中加入了模拟的网络水军用户,此方法的性能仍有待于在真实数据集上进一步验证。
卢(Lu)4等使用评论因子图模型(Review Factor Graph Model) 将内容特征与用户特征相结合,然后利用已知的网络水军通过可信度传播理论发现其它未知的网络水军。此方法可以同时发现网络水军和其发布的虚假评论。由于种子水军是事先人工标注的,因此在真实环境中水军识别的准确度可能有所下降。许(Xu)等5收集了亚马逊网(Amazon)中的约13万件产品及其评论数据,共包含约60万评论用户。他们分析了用户行为特征并构建分类器发现网络水军,然后他们利用网络水军间的关系修正分类结果以达到更好的效果。
津曼(Zinman)等6对社交网络中的用户行为特征和关系网络进行了分析,然后利用朴素贝叶斯模型和神经网络模型对社交网络中的用户进行建模,发现网络水军的典型行为模式。
为了发现网络水军,王(Wang)等7首先分析不同于正常用户的个体及群体特征,在当前的水军和垃圾用户的研究中,个体统计特征被广泛研究,但是水军作为群体表现出的群体特征则很少涉及,作者分析和研究了水军的4个个体特征和6个群体特征。然后基于这些特征,提出了一种基于逻辑回归模型的水军用户检测方法。在检测出的水军基础上,分析了在同一个话题中出现的水军社区和同一社区中水军的观点倾向,以研究水军的群体特性。在已发现的水军基础上,发现推广活动的幕后推手。