网站大量收购闲置独家精品文档,联系QQ:2885784924

sas描述性统计分析.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。 如何用图来表示数据? 定量变量的图表示:直方图 对于一个定量变量,比如某个地区测量了163个高三男生的身高。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。 定量变量的图表示:盒型图 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 右图是根据地区1高三男生的身高数据所绘的盒形图; 定量变量的图表示:茎叶图 在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据 以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。 定量变量的图表示:散点图 数据会有两个变量,如美国男士和女士初婚年限数据。 该数据描述了自1900年到1998年男女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。 定性变量的图表示:饼图 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 定性变量的图表示:条形图 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。 如何用少量数字来概括数据? 大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分比等来概括大量数字。 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。 如何用少量数字来概括数据? 可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字是从样本数据得来的,因而也是样本的函数, 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统计量也是随机变量) 如何用少量数字来概括数据? 概括统计量经常对应于总体的无法观测到的某些参数。 这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。 如何用少量数字来概括数据? 注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。 数据的“位置” 数据有位置吗? 数据的“位置” “位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。 和这种“位置”有关的统计量就称为位置统计量(location statistic)。 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k%分位数)。 数据的“位置” 最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(sample mean),以区别于总体均值。 如果记样本中的观测值为x1,…,xn,则样本均值定义为 数据的“位置” (样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。 由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。 数据的“位置” 上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。 数据的“位置” 一般地还称上四分位数为75百分位数(75 pecentile,有75%的观测值小于它),下四分位数为25百分位数(有25%的观测值小于它)。 一般地,k百分位数(k-pecentile)意味着有k%的观测值小于它。 如果令a=k%,则k百分位数也称为a分位数(a-quantile)。 样本中出现最多的数目,称为众数(mode) 数据的“尺度” 这两个数据“胖瘦”一样吗? 数据的“尺度” 数据中数目的分散程度由尺度统计量(scale statistic)来描述。 尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。 数据的“尺度” 从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右边的数据散布范围要小得多。 数据的“尺度” 极差(rang

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档