- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
03数据的描述整理ppt
统计学 ─从数据到结论 第三章数据的描述 在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。 §3.1 如何用图来表示数据? §3.1.1 定量变量的图表示:1.直方图 对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高(S3height1.txt)。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。 图3.1就是利用这个数据由SPSS软件所画的直方图。 §3.1.1 定量变量的图表示:2.盒型图 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(height.txt,height.sav,第三章例.xls)。 §3.1.1 定量变量的图表示:3.茎叶图 在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据 以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。 §3.1.1 定量变量的图表示:4.散点图 数据会有两个变量,如美国男士和女士初婚年限数据(marriage.txt)。 该数据描述了自1900年到1998年男女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。 §3.1.2 定性变量的图表示:饼图 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 下面用SPSS绘的图3.5(饼图,pie chart)表示了说世界各种主要语言人数的比例(language.txt). §3.1.2 定性变量的图表示:条形图 而用同样数据画的图3.6称为条形图(bar chart)。 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。 §3.2 如何用少量数字来概括数据? 大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分比等来概括大量数字。 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。 §3.2 如何用少量数字来概括数据? 可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字是从样本数据得来的,因而也是样本的函数, 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统计量也是随机变量) §3.2 如何用少量数字来概括数据? 概括统计量经常对应于总体的无法观测到的某些参数。 这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。 §3.2 如何用少量数字来概括数据? 注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。 §3.2.1 数据的“位置” 数据有位置吗? §3.2.1 数据的“位置” “位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。 和这种“位置”有关的统计量就称为位置统计量(location statistic)。 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k%分位数)。 §3.2.1 数据的“位置” 最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(sample mean),以区别于总体均值。 如果记样本中的观测值为x1,…,xn,则样本均值定义为 §3.2.1 数据的“位置” (样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。 由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。 §3.2.1 数据的“位置” 上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。 §3.2.1 数据的“位置”
您可能关注的文档
- 嵌入式系统概况11整理ppt.ppt
- 从人体工程学看衣柜整理ppt.pptx
- 听力学科整理ppt.ppt
- 色彩常识及家居搭配技巧.ppt
- %化妆课程%.ppt
- (good)个人理财规划.ppt
- ()建立数学模型.ppt
- (1 2) 认识会计要素.ppt
- 安装算量基础知识.ppt
- (已读)不错 三星SDS公司的知识管理.ppt
- 2024至2030年中国羚羊角类饮片行业深度调查与前景预测分析报告.docx
- 重庆市面向中国农业大学定向选调2024届大学毕业生2024年国家公务员考试考试大纲历年真题14笔试历.docx
- 重庆市面向西北工业大学定向选调2024届大学毕业生00笔试历年典型考题及解题思路附答案详解.docx
- 中国不动杆菌感染治疗药行业市场现状分析及竞争格局与投资发展研究报告2024-2029版.docx
- 2024至2030年全球与中国ETL软件市场现状及未来发展趋势.docx
- 初中八年级(初二)生物下册期末考试1含答案解析.docx
- 干簧式继电器项目申请报告.docx
- 2024至2030年中国左氧氟沙星片行业深度调查与前景预测分析报告.docx
- 菜籽项目申请报告.docx
- 2024至2030年中国八角钢行业深度调查与前景预测分析报告.docx
文档评论(0)