一. 定义
群体子空间健康度用来同时衡量群体在结构上的内聚程度和在属性子空间上的属性相似度。群体子空间健康度基于群体健康度定义,健康度衡量群体的结构内聚程度,为群体内节点内部度之和与总度之和之比。当群体内部边越多,跨越群体边界的边越少,该群体的健康度越大,因此最大化健康度可以发现结构特征好的群体。除了结构特征,群体还需要具有很强的属性特征,即群体内部节点互相相似,内部节点与外部节点不相似。属性特征和结构特征可以基于属性子空间相似度合成起来。将节点对之间的属性子空间相似度作为该节点对之间边的权值,则群体子空间健康度定义为群体内部边权值之和与群体内部节点所有关联边权值之和的比值。
二. 群体子空间健康度的表示一个社交网络被表示为一个3元组,其中{\cal V}表示节点集,表示边集,表示一个属性函数。是节点v的属性向量。表示属性全空间中的属性集合,表示属性r的值域。采用属性向量之间的指数核作为属性相似度,即,式中是一个尺度参数,表示两个属性向量之间的欧式范数。由于是在属性子空间下挖掘群体,需要考虑群体属性子空间特征,因此采用子空间加权欧式范数,即
式中是对应于子空间D的子空间向量,满足归一化条件。子空间向量中的元素表示子空间D中属性i的重要性。基于定义的属性相似度,将网络重新加权为,其中定义为
式中,I是一个指示函数。则群体C的子空间健康度定义为
最大化子空间健康度不仅使群体内部边较多,群体边界边较少,还使群体内节点在子空间下更加相似,而与群体外节点更加不同。