03数据的描述.ppt

下载文档 降价啦

0
0
约3.68千字
约 38页
2017-06-10 发布于上海
举报
版权申诉
保障服务

03数据的描述.ppt

1、本文档共38页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

03数据的描述整理ppt

统计学 ─从数据到结论第三章数据的描述在对数据进行深入加工之前，总应该对数据有所印象。可以借助于图形和简单的运算，来了解数据的一些特征。由于数据是从总体中产生的，其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。 §3.1 如何用图来表示数据？ §3.1.1 定量变量的图表示:1.直方图对于一个定量变量，比如某个地区（地区1）测量了163个高三男生的身高（S3height1.txt）。用图形来表示这个数据，使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。图3.1就是利用这个数据由SPSS软件所画的直方图。 §3.1.1 定量变量的图表示:2.盒型图简单一些的是盒形图(boxplot，又称箱图、箱线图、盒子图)。图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图；其右边的图代表另一个地区（地区2）的高三学生的身高（height.txt，height.sav，第三章例.xls）。 §3.1.1 定量变量的图表示:3.茎叶图在直方图和盒形图中，很难恢复数据的原貌。而另一种图：茎叶图(stem-and-leaf plots)可以恢复数据以地区1高三男生身高为例（图3.3），茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字，叶为较小位数的数字。 §3.1.1 定量变量的图表示:4.散点图数据会有两个变量，如美国男士和女士初婚年限数据（marriage.txt）。该数据描述了自1900年到1998年男女第一次婚姻延续的时间。这里年份是一个变量，婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来，所以每年就取了一个中间的值(中位数)作为代表。 §3.1.2 定性变量的图表示：饼图定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例。下面用SPSS绘的图3.5（饼图，pie chart）表示了说世界各种主要语言人数的比例(language.txt). §3.1.2 定性变量的图表示：条形图而用同样数据画的图3.6称为条形图（bar chart）。从每一条可以看出讲各种语言的实际人数，而且分别给出了每个语种中母语和日常使用的人数（在图中并排放置）。条形图显示比例不如饼图直观。 §3.2 如何用少量数字来概括数据？大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的简化我们可以用 “平均”，“差距”或百分比等来概括大量数字。由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。 §3.2 如何用少量数字来概括数据？可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。这些数字是从样本数据得来的，因而也是样本的函数，任何样本的函数，只要不包含总体的未知参数，都称为统计量(statistic)。样本的随机性决定统计量的随机性（统计量也是随机变量） §3.2 如何用少量数字来概括数据？概括统计量经常对应于总体的无法观测到的某些参数。这时，统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。 §3.2 如何用少量数字来概括数据？注：一些统计量前面有时加上“样本”二字，以区别于总体的同名参数。如“样本均值”和“样本标准差”，以区别于总体均值和总体标准差；但在不会混淆时可以只说“均值”和“标准差”。 §3.2.1 数据的“位置” 数据有位置吗？ §3.2.1 数据的“位置” “位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心（center或center tendency）。和这种“位置”有关的统计量就称为位置统计量(location statistic)。位置统计量当然不一定都是描述“中心”了，比如后面要讲的k百分位数（或k％分位数）。 §3.2.1 数据的“位置” 最常用的位置统计量就是小学时所学到的算术平均数，它在统计中叫做均值(mean)；严格地说叫做样本均值(sample mean)，以区别于总体均值。如果记样本中的观测值为x1,…,xn，则样本均值定义为 §3.2.1 数据的“位置” (样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数)，或者中间两个数目的平均(如果样本量为偶数)。由于中位数不易被极端值影响，所以中位数比均值稳健(robust)。 §3.2.1 数据的“位置” 上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile, third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。 §3.2.1 数据的“位置”