- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Unit37Stat
典型相关分析
典型相关分析(Canonical Correlation Analysis)是研究两组变量间相关关系的一种多元统计分析方法。它能够揭示两组变量之间的内在联系,真正反映两组变量间的线性相关情况。
典型相关分析
我们研究过两个随机变量间的相关,它们可以用相关系数表示。然而,在实际中常常会遇到要研究两组随机变量间和的相关关系问题。和可能是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映和之间的相关关系。因此,就要找出的一个线性组合及的一个线性组合,希望找到的和之间有最大可能的相关系数,以充分反映两组变量间的关系。这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。如果一对变量(,)还不能完全刻画两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(,)不相关的情况下也具有尽可能大的相关系数。直到进行到找不到相关变量对时为止。这便引导出典型相关变量的概念。
典型相关系数与典型相关变量
设有两组随机变量和,假定它们都已经标准化了,即,,若记:
此时,它们的协方差矩阵(也是相关系数矩阵)为:
其中,
实际上,我们要找:
使和的相关系数达到最大。由于对任意常数,,,, (其中,), (37.1) (37.2) 此时,。在与的条件下,使达到最大的与分别与和组成的新变量:
(37.3) 称为第一对典型变量,称为第一典型相关系数。若用一对变量还不足以完全反映两组变量的相关时,可以定义第二对典型变量,这时除要求, 外,还要求,,和,在这些条件下使达到最大。一般地,第对典型变量定义如下:
称为第对典型变量,其系数向量与使达到最大,并且满足如下条件:
(37.4) ,此时称为第对典型相关系数。
求法
我们采用Lagrage乘子法,从开始逐一求 、。下面仅以 、的求法作一简述,以下假定是正定矩阵。记:
(37.5) 其中,、为Lagrage乘子,用、 表示仅仅为了下面计算式的简单而已。将对 、分别求偏导,并令其为0,再与约束条件联立,则 、应满足以下方程组:
(37.6) 在式(37.6)的前二式两边左乘和,并利用式(37.6)的后二式有:
, (37.7) 由于,故有。再由(37.6)及的非奇异性知:
(37.8) 将其代入式(37.6),则:
(37.9) 再由的非奇异性知:
(37.10) 记,式(37.10)表明 是的特征根,是其对应的特征向量。又由式(37.7)知 是与 的相关系数,要求其达到最大, 一定是的最大特征根,是最大特征根对应的特征向量;进而可由式(37.8)求出。第一典型相关系数是的最大特征根的算术根。
其实也可证明是的最大特征根对应的特征向量。由于M1 与M2 有相同的非零特征根,因此,此时求出的和直接从式(37.8)求出的是一致的。
用同样方法可知是M1的第二大的特征根对应的特征向量,可通过下式求出:
(37.11) 一般来说,可求出M1 的 个非零特征根,M1对应于这些特征根的特征向量分别记为、、…、,进而:
(37.12) j = 1,2, ,r 、为系数可组成第对典型变量,。第对典型变量对应的相关系数是的算术根,这便是第个典型相关系数,j = 1,2, ,rr ≤min(p ,q) 通常是未知的,已知的只是的个样品:
,,…,。
我们只能从样本去其估计、和。然后,用相应的估计量代替中相应的未知参数矩阵,因此要考虑矩阵的非零特征根及相应的特征向量,有关的计算可按以前讨论的方法进行。
应注意的几个问题
典型相关是研究两组变量之间相关性的一种统计分析方法。与主成分分析一样,它也是一种降维技术。多重相关是典型相关的一个特例,简单相关是多重相关的一个特例。
第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减,各对典型相关所含的信息互不重复。
经标准化的两组变量间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的。
典型变量的最大对数等于两组变量中较少一组的变量个数。
每个典型变量除在另一组里与其配对的那个典型变量外,它同所有其他典型变量均不相关。
第一对典型相关的大小至少同任一变量与对应的那组变量间的多重相关一样大。
至于选取多少对典型相关可通过检验来确定。
Cancorr典型相关分析过程
描述两组变量之间的相关性,可用典型相关过程cancorr完成。简单相关和多重相关都是典型相关的特殊情况,此时两组变量中有一组或两组只含一个变量。对于两组变量,如果一组变量用x表示,另一组变量用y表示,那么典型相关分析就是找出(l)个变量的线性组合值与(l)个变量的线性组合值,使两者之间的相关达到最大。
cancorr过程一般由下列语句控制:
proc
文档评论(0)