课基本统计描述与数据转换.docVIP

课基本统计描述与数据转换.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课基本统计描述与数据转换

第二课 基本统计描述与数据转换 描述统计分析 引:统计分析的目的是研究总体特征。而往往由于客观条件的限制,我们只能够得到从总体中随机抽取的一部分观察对象,称之为样本,只有通过对样本的描述和研究,才有可能对总体进行某种可能的推断。描述统计分析是推断统计分析的基础。 一、描述统计分析的基本内容包括: 集中趋势分析: ①众数:出现频率最高的数  ②中位数:将数据排序后位于正中间的数值。适合于所有分布类型的数据 ③分位数:四分位数、中位数、百分位数。理解分位数的含义。 ④均值:一组数据的简单算术平均数或加权算术平均数。适合于正态分布或对成分布资料。 ⑤几何平均数:算术平均数的变形,专门用来处理特殊数据的平均数,如发展速度 ⑥调和平均数:算术平均数的一种变形。 离散趋势分析 ①极差:数据最大值减去最小值,最简单的离散程度测度值 ②标准差、方差:最常用的离散程度测侧度值,一般适合于正态分布资料 ③最小值、最大值 ④标准误:样本平均数的标准差 偏度、峰度测量 ①偏度系数:Skew ness,当分布对称时,偏度系数为0。当偏度系数为正值,可以判断为右偏(正偏),反之,判断为左偏(负偏)。 ②峰度系数:Kurtosis ,是对数据分布平峰或尖峰程度的测度。峰度是针对标准正态分布而言的。峰度系数为0,表明数据为标准正态分布。若峰度系数大于0,则数据为尖峰分布;反之为平峰分布。 统计图形分析:直方图、PP 图、茎叶图、箱线图等   上述三种图形是描述统计分析过程中常用的几种图形,是用于观察数据的分布形态的辅助工具。 二、菜单介绍: 1、frequencies 过程:生成频数分布表,适合于定性资料,以及部分定量资料。 2、descriptive:进行一般的描述统计统计分析,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。适合服从正态分布的定量资料。使用频率最高。 3、Explore:适合于数据分布状况不清时的探索性数据分析。 4、ratio:对连个连续性变量计算相对指标。 三、frequencies 过程。 四、descriptive过程 主要针对连续性资料,可以计算一系列描述统计量。并且可以将变量的原始数据标准化并以变量的形式保存。 五、explore 过程 适用于对资料的性质、分布特点完全不清楚时,称之为探索性分析。能计算常用描述统计量,并绘制统计图形,包括茎叶图、箱线图。 箱线图:首先找出一组数据的五个特征值,包括最小值、最大值、中位数、两个四分位数(上四分位数和下四分位数),然后,连接两个四分位数构成箱子,最后连接两个极值点与箱子,形成箱式图。可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。 例:某班学生英语成绩如下: 76 90 97 71 70 93 86 83 78 85 81 绘制箱线图如下: 茎叶图:将数据分成茎和叶两部分,通常以数据的高位数值为茎,低位为叶,树叶上一般保留数据的最后一个数字,树叶长在树茎上。通过茎叶图,也可以看出数据的分布形状及数据的离散状况。实际上是横放的直方图。适合于数据量较少的情况。该图形的优势,既保留原始数据的信息,又能看出数据的分布状况。这是比直方图优越的地方。 【例】某生产车间50名工人日加工零件数如下(单位:个)。试绘茎叶图观察分布特征。 117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121 M-estimators: 用于对集中趋势进行最大稳健估计。   当数据中存在异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。通常有四种统计量:Huber、Andrew、Hampel、 Tukey。若这四个统计量的结果较为接近,且与均数相差不大,则说明数据分布不太偏,也就说明均值可以代表数据的集中趋势。 Levene : 方差齐性检验。适合于对分组数据检验各组间数据是否方差齐。 Shapiro wilk 检验:正态性检验的方法之一。当检验一组数据是否服从正态分布,可以运用该检验方法。一般适合于小样本场合。 K-S检验:正态性检验的方法之一。当检验一组数据是否服从正态分布,可以运用该检验方法。一般适合于连续性数据,大样本场合。 Transform/Data菜单详解 本

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档