- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
直线相关
第二节直线相关分析
一、直线相关的概念
直线相关分析是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。直线回归分析方法是描述两变量间依存变化的方法。实际工作中有时并不要求由X估计Y(或者先不考虑这个问题)而关心的是两个变量间是否确有直线相关关系,如有直线相关关系,那么它们之间的关系是正相关(positive correlation),还是负相关(negative correlation)以及相关程度(degree of relationship)如何? 此时可应用相关分析。
直线相关的定义:如果两个随机变量中,一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)地变化,并且测得两变量组成的坐标点在直角坐标系中呈直线趋势,就称这两个变量存在直线相关关系。
直线相关(1inear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料,一般说来,两个变量都是随机变动的,不分主次,处于同等地位。两变量间的直线相关关系用相关系数r(correlation coefficient)描述。直线相关的性质可由散点图(图12.3)直观地说明。
(a)0r1(b)-1r0(c)r=1(d)r=-1
(e)r=0(f)r=0(g)r=0(h)r=0
图12.3相关系数示意
图a,散点呈椭圆形分布,宏观而言两变量X、Y变化趋势是同向的,称为正线性相关或正相关(0r1);反之,图b中的X、Y问呈反向变化,称为负线性相关或负相关(-1r0)。图c的散点在一条直线上、且X、Y是同向变化,称为完全正相关(perfect positive correlation, r=1);反之,图d中的X、Y呈反向变化,称为完全负相关(perfect negative correlation, r=-1)。图e-图h,两变量间毫无联系或可能存在一定程度的曲线联系而没有直线相关关系、称为零相关(zero correlation, r=0)。正相关或负相关并不一定表示一个变量的改变是另一个变量变化的原因,有可能同受另一个因素的影响。
二、相关系数的意义及计算
相关系数亦称积差相关系数(coefficient of product-moment correlation),用r表示样本相关系数,表示总体相关系数。它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。计算公式表示
(12.20)
相关系数没有单位,其值-1r1。当两变量呈同向变化时,0r1,为正相关;两变量呈反向变化,-1<r<0,为负相关;r=0为零相关,表示无直线相关关系;两变量呈同向或反向变化且点子分布在一条直线上,|r|=1为完全相关。完全相关属相关分析中的待例,由于医学研究中影响因素众多,个体变异不可避免,很少呈现完全相关。
[例10.6]根据例10.1资料,试计算8岁健康男孩体重与心脏横径的相关系数。
由例12.1已算得
,lXX=80.2692,lYY=4.1923, lXY=16.3846
三、相关系数的假设检验
相关系数r是样本相关系数,它只是总体相关系数的估计值。从同一总体中抽出的不同样本会提供不同的样本相关系数,因而,样本相关系数也存在变异性。所以,即使从=0的总体作随机抽样,由于抽样误差的影响,所得r值,也不一定等于零。故当计算算出r值后,接着应做=0的假设检验,以判断两变量的总体是否有直线相关关系。常用t检验,检验统计量t值的计算公式如下:
(12.21)
[例10.7]根据例10.6求得的r值,检验该地饮水氟含量与氟骨症发病率是否有直线相关关系。
H0: =0
H1: 0
已知n=8,r=0.9338
查t界值表,得P0.001,按水准拒绝H0, 接受H1,故可以认为8岁健康男孩的体重与心脏横径之间有直线相关关系。
四、总体相关系数的区间估计
先对相关系数r作z变换
(12.22)
或
式中,tanh为双曲正切函数;tanh-1为反双曲正切函数。
z的分布符合近似正态分布,按正态近似原理,z的1-可信区间可按下式计算:
(12.23)
[例10.7]根据例10.5求得的r值,求总体相关系数的95%可信区间。
已知r=0.8932
z的95%可信区间为
将z作反变换,该总体相关系数的95%可信区间为(0.6738,0.9679)。
五、直线相关分析时的注意事项
(一)并非任何有联系的两个变量都属线性联系,可能的话在计算相关系数之前首先利用散点图判断两变量间是否具有线性联系,曲线联系时是不能用直线相关分析的。
(二)有些研究中,一个变量的数值随机变动,另一个变量的数值却是认为选定的。如研究药物的剂量-反应关系时,
文档评论(0)