网站大量收购独家精品文档,联系QQ:2885784924

数模 第5讲.相关系数.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五讲:相关系数本讲我们将介绍两种最为常用的相关系数:皮尔逊 person相关系数和斯皮尔曼spearman等级相关系数。 它们可用来衡量两个变量之间的相关性的大小,根据 数据满足的不同条件,我们要选择不同的相关系数进 行计算和分析(建模论文中最容易用错的方法)。 2 / 46 总体和样本总体——所要考察对象的全部个体叫做总体.我们总是希望得到总体数据的一些特征(例如均值方差等)样本——从总体中所抽取的一部分个体叫做总体的一个样本.计算这些抽取的样本的统计量来估计总体的统计量:例如使用样本均值、样本标准差来估计总体的均值(平均 水平)和总体的标准差(偏离程度)。例子:我国10年进行一次的人口普查得到的数据就是总体数据。大家自己在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。 3 / 46 总体皮尔逊Person相关系数回顾《概率论与数理统计》中的数理统计部分:直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也 大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直 保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负; 如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么 累加后正负抵消。注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。 4 / 46 总体皮尔逊Person相关系数回顾《概率论与数理统计》中的数理统计部分:皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。注:为什么绝对值小于1的证明见本节拓展资料:文件A 5 / 46 样本皮尔逊Person相关系数注:为什么样本方差分母是n‐1见本节拓展资料:文件B 6 / 46 相关性可视化通过绘制散点图可以很容易地判定两个数据对象x和y之间的相关性。图片来源: [美]作者Pang‐Ning Tan 《数据挖掘导论》 7 / 46 关于皮尔逊相关系数的一些理解误区上面四个散点图对应的数据的皮尔逊相关系数均为0.816 8 / 46 关于皮尔逊相关系数的一些理解误区冰激凌的销量和温度之间的关系:相关系数计算结果为0 9 / 46 关于皮尔逊相关系数的一些理解误区In statistics, the Pearson product‐moment correlation coefficient is a measure of the linear correlation (dependence) between two variables X and Y, giving a value between +1 and ?1 inclusive, where 1 is total positive correlation, 0 is no correlation, and ?1 is total negative correlation. It is widely used in the sciences as a measure of the degree of linear dependence between two variables.‐‐from wiki维基百科注意红色标注的linear :这里的相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能 告诉你他俩相关程度如何。 10 / 46 容易忽视和犯错的点相关系数计算结果为0上面四个散点图对应的数据的皮尔逊相关系数均为0.816非线性相关也会导致线性相关系数很大,例如图2。离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到 了异常值的影响。相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关 关系(非线性相关),例如图5。 11 / 46 两点总结如果两个变量本身就是线性的关系, 那么皮尔逊相关系数绝对值大的就是相关性 强,小的就是相关性弱;在不确定两个变量是什么关系的情况 下,即使算出皮尔逊相关系数,发现很大, 也不能说明那两个变量线性相关,甚至不能 说他们相关,我们一定要画出散点图来看才 行。 12 / 46 对相关系数大小的解释相关性负正无相关性‐0.09 to 0.00.0 to 0.09弱相关性‐0.3 to ‐0.10.1 to 0.3中相关性‐0.5 to ‐0.30.3 to 0.5强相关性‐1.0 to 0.50.5 to 1.0上表所定的标准从某种意义上说是武断的和不严格的。 对相关系数的解释是依赖于具体的应用背景和目的的。事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验) 13 / 46 例题

文档评论(0)

好文档制作 + 关注
实名认证
服务提供商

医学PPT制作等, 文档批量转化等,其他各类高校PPT制作。

1亿VIP精品文档

相关文档