简介
典型相关分析最早哈罗德·霍特林首次引入。他所提出的方法于 1936 年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》经过多年的应用及发展,逐渐达到完善,在 70 年代臻于成熟。
由于典型相关分析涉及较大量的矩阵计算, 其方法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。 典型相关分析是研究两组变量之间相关关系的一种统计分析方法1。
为了研究两组变量量X= (X1, ...,Xn) 和Y= (Y1, ...,Ym) 之间的相关关系,采用类似于主成分分析的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为典型变量。
定义给定两个带有限矩的随机变量的列向量 和 ,我们可以定义互协方差矩阵 为 的矩阵,其中 是协方差 。实际上,我们可以基于 和 的采样数据来估计协方差矩阵。(如从一对数据矩阵)。
典型相关分析求出向量 和 使得随机变量 和 的相关性 最大。随机变量 和 是第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量;这样就得到了第二对典型变量。 这个步骤会进行 次。
计算1.求导设 和 。需要最大化的参数为
第一步是定义一个基变更以及
因此有
根据柯西-施瓦茨不等式,我们有
如果向量 和 共线,那么上式相等。此外,如果 是矩阵 最大特征值对应的特征向量,那么就可以得到相关的最大值。随后的典型变量对可以通过减少特征值的量级来得到。正交性保证了相关矩阵的对称性。
2.解法因此解法是:
1) 是 的一个特征向量;
2) 是 的比例项。
相反地,也有:
1) 是 的一个特征向量;
2) 是 的比项。
把坐标反过来,我们有
1) 是 的一个特征向量;
2) 是 的一个特征向量;
3) 是的比例项;
4) 是 的比例项。
那么相关变量定义为2:
相关应用典型相关分析的用途很广。在实际分析问题中,当面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。
又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的相关关系进行测度。
又如,在分析评估某种经济投入与产出系统时,研究投入和产出情况之间的联系时,投入情况面可以从人力、物力等多个方面反映,产出情况也可以从产值、利税等方面反映3。
再如在分析影响居民消费因素时,我们可以将劳动者报酬、家庭经营收入、转移性收入等变量构成反映居民收入的变量组,而将食品支出、医疗保健支出、交通和通讯支出等变量构成反映居民支出情况的变量组,然后通过研究两变量组之间关系来分析影响居民消费因素情况。
典型相关分析有助于综合地描述两组变量之间的典型的相关关系。其条件是,两组变量都是连续变量,其资料都必须服从多元正态分布。