SAS第十一讲 典型相关分析.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS第十一讲 典型相关分析

医用SAS统计分析 主讲人 景学安 * * SAS统计分析 典型相关分析 主讲人 景学安 典型相关分析 一、基本概念 典型相关分析(canonical correlation analysis)是研究两组变量之间相关关系的一种多元统计分析方法。医学研究中常需要研究两组变量X=(X1,X2,…,Xp)和Y=(Y1,Y2,…,Yq)的相互关系,例如成年男性体型与血压之间的关系,体型用身高(X1),体重(X2)和体型指数(X3),血压用收缩压(Y1),舒张压(Y2)和脉率(Y3)。 若采用简单相关系数rij反映两组变量间的相关关系,只能孤立地考虑某个Xi与某个Yj间的关系,不能全面反映体型X和血压Y的关系,并使问题变得复杂且缺乏完整性。1936年Hotelling在主成分分析和因子分析的基础上,首先把两个随机变量X,Y的相关性推广到两个随机向量Xp×1和Yq×1的相关性,提出了典型相关分析。 典型相关分析的基本思想类似于主成分分析,寻找几个简单的综合变量(实际观测变量的线性组合),替代关系复杂的实际观测变量,将一组变量与另一组变量简单变量的多重线性相关研究,转化为对少数几对组合变量间的简单线性相关性研究,此时这少数几对变量所包含的线性相关性信息涵盖了原变量组所包含的大部分信息,反映了两组变量的相关本质。这种利用综合变量对之间的相关性来反映两组变量之间整体相关性的多元统计分析方法称为典型相关分析。 二、典型相关分析的数学模型 设两组变量为X=(X1,X2,┅,Xp) 和Y=(Y1,Y2,┅,Yq),设定p≤q,对其建立线性组合表达式: 式中, 和 为Xi和Yi的标准化值,Vi和Wi(i=1,2,…,p)是由X变量和Y变量的线性组合产生的组合指标变量,称之为典型变量(canonical variable), 典型变量Vi和Wi之间的简单相关系数ri,称之为典型相关系数(canonical correlation coefficients),a=(a1,a2,…,ap)和b=(b1,b2,…,bq)为待估计的组合系数,称之为典型系数(canonical coefficients)。 三、典型相关的性质 1.典型变量V1、V2、…、Vp之间相互独立,W1、W2、…、Wp之间相互独立,即相关系数为0。 2. Vi和Wi间成对相关,相关系数用r1,r2,…,rp表示,且有r1≥r2≥…≥rp,p个典型相关系数需作假设检验,说明有无统计学意义。 3. Vj和Wk(j≠k)间相互独立,相关系数为0。 4.每个Vi ,Wi的均数为0,方差为1。 实际应用时,常只用到第一典型相关系数r1,或第一、二典型相关系数r1和r2。究竟应取前几个典型相关系数,除了对典型相关系数进行假设检验外,还要结合典型变量和典型相关系数表达的实际意义而定。 求得的典型变量越少越容易分析,最好是第一对典型变量就提取了足够的信息,用第一典型相关系数已足够表达两组变量间的相关性,其他次要信息意义不大,没有深入研究的必要。典型相关分析的关键在于典型变量对及其相关与实际相符的合理解释。 四、典型相关分析的SAS程序 SAS采用CANCORR过程进行典型相关分析,CANCORR过程的语法格式如下: Proc cancorr [选项]; Var 变量名列;/*用来列出被分析的两组变量中的第一组变量。必须是数值变量。*/ With 变量名列;/*用来列出被分析的两组变量中的第二组变量。必须是数值变量。*/ [freq 变量名;] /* 指明该变量为频数变量。*/ Run; proc过程[选项] 1.数据集选项 (1)data=数据集 /* 指明分析的数据集名字 */ (2)out=数据集 /* 创建一个新数据集,包括来自data=数据集中的全部原始数据和典型变量得分估计值。 */ (3)outstat=数据集 /* 创建一个包含典型相关分析大部分结果的新数据集。*/ 2.控制输出选项 (1)corr|c /* 显示原始变量之间的相关系数*/ (2)ncan=n /* 规定要求输出的典型变量的个数,其中n必须小于或等于两组变量较小一组的变量个数。*/ (3)simple|s /* 显示各变量的均值和标准差 */ (4)redundancy|red /* 冗余度分析,即显示实测变量的总变异由典型变量解释的比例,或典型变量对实测变量的贡献率。*/ (5)all /* 以上(1)、(3)、(4)项全选

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档