[科普中国]-样本数据- · 科普中国网

样本数据是针对小样本试验数据的概率分布特征有时无法确定，传统概率统计就无法提供相应的参数估计方法的问题而提出的方法。

简介针对小样本试验数据的概率分布特征有时无法确定，传统概率统计就无法提供相应的参数估计方法的问题。基于灰色关联理论，首先定义了基于试验数据之间的拓扑关系和距离关系的灰色距离测度。通过对灰色距离测度的灰色生成得到小样本数据的参数估计值，并给出了满足一定灰色置信度下的参数置信区间，继而讨论了概率参数估计与灰色参数估计之间的区别。最后利用计算机对小样本试验数据的参数估计进行了仿真举例，示例结果表明所提方法简单合理，能有效地解决小样本数据参数估计的有关问题1。

样本数据特征的初步分析样本数据集合中出现频次最高的那个样本值，称为样本众数。在一般情况下，“样本众数”被简称为“众数”。单一众数是在许多情况下，一个样本数据集合中出现频次最高的样本值只有一个。这时的众数是最普通的众数，称为单一众数。而复众数就是在一个样本数据集合中。

利用SAS软件描述样本数据例题：计算平均数和标准差

解：在进行分析之前，最好先建立一个外部数据文件。如果不建立外部数据文件，在作业流中输入数据也可以。一般来说，在数据量比较大，有可能重复使用时，最好建立一个数据文件。在这里我们创建一个称为2-1data.dat 的外部数据文件，存储在A盘中。用MEANS过程描述数据的最基本的程序如下2：

options linesize=76;

data abc;

infile ‘a:\2-1data.dat’;

input x;

run;

proc means;

run;

提交SAS运行后，所得结果如表1所示：

|| || 表1 输出的结果

打印的结果中包括：数据个数、平均数、标准差、最小值和最大值。这是MEANS语句在缺省时得到的基本结果。若需要对数据作更详细的描述，则要指明所需的统计量。用MEANS过程所计算的统计量，在这里也一并列出。MEANS过程所计算的统计量是用关键词表示，这些关键词及其含义如下：

N：输入的观测值个数；

NMISS：每个变量所含缺失值的个数；

MEAN：变量的平均数；

STD：变量的标准差；

MIN：变量的最小值；

MAX：变量的最大值；

RANGE：变量的极差；

SUM：变量所有值的和；

VAR：变量的方差；

USS：每一变量原始数据的平方和（未校正平方和）；

CSS：每一变量的离均差平方和（校正平方和）；

CV：变异系数STDERR：每一变量的标准误差（平均数的标准差）；

T：在H0:μ= 0时的t 值；

PRT：在H0:μ= 0 的假设下，统计量t 大于t 临界值绝对值的概率；

SKEWNESS：偏斜度；

KURTOSIS：峭度；

CLM：置信区间的上限和下限；

LCLM：置信区间的下限；

UCLM：置信区间的上限；

另外，在PROC MEANS语句中还有12个选项，其中几个主要选项如下：

DATA=（SAS 数据集）：指出SAS 数据集的名称，若省略，则使用最近产生的数据集；

MAXDEC=（数字）：指出所输出的结果中，小数部分的最大位数（0－8），缺省时为8 位；

FW=（域宽）：指出打印的结果中每个统计量的域宽，缺省时为12；

VARDEF=（DF / N）：VARDEF=DF为缺省值，表示计算方差时，使用n-1 作分母；

VARDEF=N表示计算方差时，使用观测值个数n 作分母；

ALPHA=（α值）：指出在计算置信区间时，选用的显著水平。

本词条内容贡献者为:

尚华娟 - 副教授 - 上海财经大学

[科普中国]-样本数据

微信扫一扫：分享