统计基本概念及描述性统计.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计基本概念及描述性统计

箱图(Boxplot) 统计中常常把数据的最小值(Min)、下四分位数(Q1)、中位数(Q2)、上四分位数(Q3)、和最大值(Max)称为总结数据的五个数(Five Numbers)。 传统的箱图根据这五个特征数绘制而成: 首先找出一组数据的5个特征值 连接上四分位和下四分位画出箱体,再将最大值和最小值与箱体用直线连接 传统箱图 Max Q3 Q2 = Median Q1 Min 传统箱图 改进的箱图 改进后的箱图能更好地显示出异常值。SPSS输出的就是这种箱图。 首先计算出一组数据的5个特征值 然后计算两组上边界和下边界 根据边界值来确定箱图的起点和终点及异常值 改进的箱图 计算边界值: 四分位距:IQR = Q3 - Q1 下边界L1 = Q1- 1.5*IQR 上边界U1 = Q3+ 1.5*IQR 下边界L2 = Q1- 3.0*IQR 上边界U2 = Q3+ 3.0*IQR 小于L1或大于U1的观测值为“可能的异常值” 小于L2或大于U2的观测值为“异常值” 改进的箱图 小于U1的最大观测值 Q3 Q2 = Median Q1 大于L1的最小观测值 Possible outlier Outlier 箱图 根据箱图,可以直观地看出变量的分布特点: 集中趋势 离散程度 异常值 分布的形状: (Q2-Q1)=(Q3-Q2) 对称分布 (Q2-Q1)(Q3-Q2) 正偏分布 (Q2-Q1)(Q3-Q2) 负偏分布 极差 一组数据最大值和最小值的差,又称“全距”: 最简单的测量离散程度的统计值 未考虑数据的分布 受极端值的影响很大 ? 四分位距 四分位数(quartiles):将数据从小到大进行排序,然后分为四等份,处于三个分割点的数据就是四分位数:Q1 Q2 Q3 四分位距: IQR = Q3 - Q1 测量了中间50%的数据的范围,反映了中间50%数据的离散程度。 优点:IQR优于极差和标准差在于它不易受极端值的影响!所以当分布偏度很大或者说有少部分极端值时,适合用IQR描述离散程度! 方差和标准差 对定距变量,方差和标准差是最常用也是最重要的描述离散程度的方法。 反映了各变量值与均值的平均差异。 和均值一样,计算方差和标准差需要用到每个数据值。 根据总体数据计算的,称为总体方差和标准差;根据样本数据计算的,称为样本方差和标准差。 方差和标准差 总体的方差和标准差: 样本的方差和标准差: 方差和标准差 方差和标准差均大于等于0;值越大说明数据越分散;等于0时,数据全部相等,无差异。 标准差的单位和原始数据的单位相同,所以,它比方差容易解释。 不能根据标准差来比较不同变量的离散程度,因为标准差和原始数据的尺度有关,比较: 100、200、300 (SD=100) 10、20、30 (SD=10) 离散系数 数据标准差与其相应均值之比 也称为“变异系数” 测量了数据的相对离散程度 用于对不同组别数据离散程度的比较 计算公式为: ? 离散系数 离散系数 描述性统计分析——分布形态描述 单变量描述分析 (univariate descriptive statistics) 分布形状(shape of the distribution) 频次分布 (frequency distribution): 频次表和各种图形 集中趋势(central tendency) 离散程度(variability or dispersion) 频次分布(定类) 定类变量的频次表: 列出各类别; 计算各类别的频次; 绘制频次表。 频次:变量值落在某个类别中的次数 相对频次:各类别占总数据的比值 百分数:各频次占总样本量的百分数 性别 频次(frequency) 相对频次 (relative frequency) 百分数(percentage %) 男 12 0.60 60 女 8 0.40 40 总数 20 1.00 100 频次分布(定类) 适合描述定类变量的图形有“条形图 (bar graphs)”和“饼图 (pie graphs)”,可以手工绘制,也可以用excel或任意统计软件来绘制。 条形图 条形图: 用长条的高度来表示类别的频次或百分比; 长条的宽度没有意义,画成等宽的长条即可; 如果是定类变量,图形应画成离散的长条,但类别的顺序没有关系。 如果是定序变量,长条的排列次序应与变量取值的次序相一致! 频次分布(定类) 饼图(或圆瓣图): 饼图: 用圆形代表现象的总体,用圆瓣(扇形)代表现象中的一种情况,其面积大小代表了所占数量或百分比。 制作:将每个类别的百分数乘以360度,即可得出各圆瓣之圆心角度数。 性别 频次(frequ

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档