第三讲 单变量分析.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三讲 单变量分析 中心趋势测量 (平均数、中位数) 离散程度测量 (方差、标准差) 引言 频数分布和绘图是数据分析最基本但很有用的方法。对某个变量的总体情况进行了解,不能准确刻画变量的特征,因此,需要计算一些指标来反映变量的特征。 这些指标包括测量变量值的平均水平和变量分布的离散程度 中心趋势测量 对于某一变量,其值的平均水平或代表性值 常用的有两个指标:中位数(Median)和平均数(Mean) 中位数 把一个变量的值由小到大或由大到小排列起来,处于中心的那个值就是中位数。即中位数将变量的分布分成前后相等的两部分,其中一半的值低于中位数,另一半的值高于中位数。 中位数适用于序次变量和间距变量 中位数 计算方法:取决于案例数是奇数还是偶数 – 奇数时:就是中心的那个数 – 偶数时:是中心两个数的平均值 计算中位数 将所有案例按照值的大小从小到大排列起来。如果案例数为n,那么中位数值就在这个变量分布的(n+1)/2处。 例如 案例数n=11,是奇数,那么,中位数就在 (11+1)/2=6即第6个数,就是41。 案例数n=10,是偶数,那么,中位数就在 (10+1)/2=5.5即第5和第6个数之间,就是第5和第6个数的平均数。第5和第6个数都是39,所以平均数还是39。 年龄中位数的计算公式: 年龄中位数 l =中位数所在组的年龄下限 N =总人数 F =中位数所在组之前的所有组人数的累计 f =中位数所在组的人数 i =年龄组组距 职工收入中位数 即一半人收入低于900元,另一半人收入高于900元。 平均数 简单算术平均数是使用最广泛的平均数。其计算方法就是把所有案例的该变量值都加起来,然后除以案例数。 平均数只适用于间距变量。 简单算术平均数是使用最广泛的平均数。其计算方法就是把所有案例的该变量值都加起来,然后除以案例数。 如果有 n 个案例,其某个变量值分别为: 那么 或者 平均年龄 平均数:三个数学性质 只有间距变量(连续变量)才能计算 变量分布的重心:将一个变量的所有值都减去平均值,然后把这些差加起来,必定等于0 敏感性:因为计算平均数时,用到了所有的变量值,因此,每个变量值都对平均值产生影响,对奇异值(特别大或特别小的值)比较敏感 奇异值会影响平均数,但不会影响中位数。 比较平均数和中位数的变化 4 8 12 平均数=(4+8+12)/3=8 中位数=8 离散程度测量 所有案例在某个变量上其值的分布情况,是比较集中,还是比较分散 有三个指标:全距(Range)、方差(Variance)和标准差(Standard Deviation) 为什么要测量离散程度? 两个相同平均数的变量,它们的离散程度可能有很大不同。为了更准确反映变量的分布特征,除了平均数以外,还需要计算离散程度。 平均水平的指标和离散程度的指标一般同时使用。 相同的平均数,不同的离散程度 全距 最简单的度量离散程度的指标是全距,即最大值与最小值的差。全距也称极差。 全距是度量离散程度极为粗糙的指标,因为它的计算只涉及整个变量分布的最大值和最小值。它很可能会是一个误导性的指标。 年龄全距=59-17=42岁 收入全距=18692-66=18626元 标准差 平均数测量中心趋势,标准差测量离散程度 标准差测量的是各个观测值和平均值的平均距离有多远 平均离差(Mean Deviation) 将所有观测值减去平均值,就得到每个观测值离平均值的距离,我们叫离差;将每个观测值的离差加起来就得到总离差,然后除以观测值个数,就得到平均离差,即平均距离。 但是这样的结果是,这些离差有正有负,正负刚好抵消,加起来的结果就是0,得不到总离差: 方差 刚才的思路是可以的,但是统计学家不这么做。统计学家没有用取绝对值,而是计算每个离差的平方,平方以后也就没有负数了。将这些离差的平方加起来得到离差平方和: 离差平方的平均值就是方差(variance)。用公式表示就是: 由于离差平方和与离差和在量上不对等,前者会大于后者,无法反映平均离差,因此我们计算方差的正平方根,这就是标准差(standard deviation) 标准差 计算标准差 然后计算离差 离差平方和除以观测值个数减1,就是方差: 标准差就是方差的平方根: 标准差 标准差用来测量变量围绕平均值的分布情况、离散程度 标准差= 0,表明变量的分布不存在任何离散。这种情况发生在所有观测值都相同时。 否则 s o。当观测值的分布越分散,s就越大。 标准差的单位与原变量的单位相同。如果原变量是身高,单位是厘米,那么升高的标准差的单位也是厘米。 标准差和平均数类似,

文档评论(0)

好文精选 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档