曲线估计的概念
线性回归可以满足许多数据分析,然而线性回归不会对所有的问题都适用,有时被解释变量与解释变量是通过一个已知或未知的非线性函数关系相联系的。变量之间的非线性关系可以划分为本质线性关系和非本质线性关系。所谓本质线性关系是指变量关系形式上虽然是非线性关系,但可通过变量变换化为线性关系,并可最终进行线性回归分析建立线性模型;非本质线性关系是指变量关系不仅形式上呈非线性关系,而且也无法通过变量变换化为线性关系,最终无法进行线性回归分析建立线性模型。而曲线估计是解决本质线性关系问题的。2
11种常用模型用户如果不能马上根据专业知识或是观测量数据本身的特点确定一种最佳模型,也可以利用曲线估计在11种不同的回归模型中选择建立一个简单而又比较适合的模型。SPSS可完成表1中有关曲线拟合的功能。
|| || 表1 不同模型的表示
在SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时可在多种可选择的模型中选择几种模型;然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和相伴概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量,实现时间序列的简单回归分析和趋势外推分析。2
曲线估计的步骤在实际问题中,当不能确定哪种曲线模型最接近样本数据时,可以运用曲线估计、曲线估计过程可以用于拟合许多常用的曲线,原则上只要两个变量之间存在某种可以被它所描述的数量关系,就可以用曲线估计过程来分析,曲线估计的基本步骤是:
(1)根据实际问题本身特点,选择几种常见的曲线模型;
(2)运用最小二乘法来完成每一种曲线模型的参数估计,并显示R方、F检验值、相伴概率值以及模型的相关系数等统计量;
(3)对参数估计的相关统计量进行检验,看其是否通过显著性检验;
(4)预测。选择R方统计量值最大的模型作为首选的曲线模型。3
曲线估计的数据要求(1)解释变量与被解释变量应该是数值型变量。如果在解释变量中选择了时间选项,要求被解释变量是以一定的时间量度的变量。在进行时间分析时,要求数据文件中的每一个观测量所使用的时间间隔和长度单位是完全统一的;
(2)模型的残差应该是任意且呈现正态分布的。如果选择了线性模型,被解释变量必须是正态分布的,且所有的观测值应该是独立的。2
曲线估计在SPSS中的实现1.打开注对话框
建立或打开数据文件后,按AnalyzeRegressionCurve Estimation的顺序打开主对话框。
2.选择被解释变量
在源变量框中选择一个或多个被解释变量,送人Dependent(s)框中。
3.选择解释变量
在源变量框中选择解释变量,送人Independent框中,或者直接指定时间选项(time)作为解释变量。如果选择了时间作为解释变量,那么被解释变量应该是用时间量度的变量。
4.选择观测量
在左侧源变量框中选择标示观测量的变量放入Case Labels框中。
5.选择拟合模型
在Models栏中选择一个或多个拟合模型,各模型解释见表1。
6.选择相关选项
(1)Include constant in equation:方程包含常数项,系统默认值。
(2)Plot models:绘制曲线拟合图,系统默认值。
(3)Display ANOVA Table:结果中显示方差分析表。
7.打开Save对话框
单击“Save”变量储存按钮,激活变量储存对话框。
(1)Save Variables选项:保存变量。点击一个或全部选项,可将相应的数值以新变量形式储存到数据库中,这些变量的定义将在结果中显示。其中,Predicted Values代表被解释变量的预测值;Residuals代表残差(观察值与预测值之差)选项;Prediction Intervals代表预测值区间(上下限)选项;Confidence Interval代表可信区间选项。
(2)Predict Case选项:预测观测量。如果解释变量为时间变量,可以在该栏中指定一种超出当前数据时间序列范围的预测周期。
①Predict from estimation period through last case选项:使用预先设定好的估计周期中的数据,求出所有观测量的预测值。要完成这一步,必须先通过Data菜单中Select Cases选项中的SelectBase on time or case range定义估计周期,当前的估计周期显示在对话框的底部。如果没有预先设置估计周期,计算时使用所有的观测量。
②Predict through选项:根据预先设定的周期,使预测值通过特定的数据、时间或者特定的观测量。如果预测值的范围超出了时间序列的范围,应该选择该选项,并在随后的Observation框中输入一个预测周期的末端值。
8.单击OK按钮提交运行
在大多数情况下,对变量之间关系的认识往往模糊不清,需要先绘制散点图。
根据数据分布的特点,确定应采用的模型。可以多指定几个模型进行拟合检验,根据输出的统计量,例如R2值,结合图形综合考虑,确定最佳图形。2