定义和计算
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为
原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示:
|| ||
实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值,则ρ为
相关度量
度量一对观测数据的统计依赖性还有其他的几种度量指标:在相关性和依赖性中有谈及。其中最常用的是皮尔逊积矩相关系数。
解释
斯皮尔曼相关系数表明X(独立变量)和Y(依赖变量)的相关方向。如果当X增加时,Y趋向于增加,斯皮尔曼相关系数则为正。如果当X增加时,Y趋向于减少,斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当X增加时Y没有任何趋向性。当X和Y越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当X和Y完全单调相关时,斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着任意两对数据Xi,Yi和Xj,Yj,有Xi−Xj和Yi−Yj总是同号。完全的单调递减关系意味着任意两对数据Xi,Yi和Xj,Yj,有Xi−Xj和Yi−Yj总是异号。
斯皮尔曼相关系数经常被称作"非参数"的。这里有两层含义。首先,当X和Y的关系是由任意单调函数描述的,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的X和Y的相关性。其次,斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取XandY的采样概率分布。2
显著性的确定
一种确定被观测数据的ρ值是否显著不为零(r总是有1≥r≥−1)的方法是计算它是否大于r的概率,作为原假设,并使用分层排列测试进行检验。这种方法的优势之处在于它考虑了样本中的数据个数和在使用样本计算等级相关系数的风险。
另外的一种方法是使用皮尔逊积矩中使用到的费雪变换。也就是,ρ的置信区间和零检验可以通过费雪变换获得
如果F(r)是r的Fisher变换,则
是r的z-值,其中,r在统计依赖(ρ=0)的零假设下近似服从标准正态分布。
显著性为
其在零假设下近似服从自由度为n−2的t分布。
一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。 例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。在这种情况下,对条件间趋势的显著性检验由E. B. Page发展了,并通常称为给定序列下的Page趋势测验。3
一致性分析
经典的一致性分析是一种统计方法,它给两个标称变量赋给一个分数。 通过这种方法, 两个变量间的皮尔逊相关系数被最大化了。
有一种被称为级别相关分析的等价方法, 它最大化了斯皮尔曼相关系数或肯德尔相关系数。4