- 1、本文档共45页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。 如何用图来表示数据? 定量变量的图表示:直方图 对于一个定量变量,比如某个地区测量了163个高三男生的身高。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。 定量变量的图表示:盒型图 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 右图是根据地区1高三男生的身高数据所绘的盒形图; 定量变量的图表示:茎叶图 在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据 以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。 定量变量的图表示:散点图 数据会有两个变量,如美国男士和女士初婚年限数据。 该数据描述了自1900年到1998年男女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。 定性变量的图表示:饼图 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 定性变量的图表示:条形图 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。 如何用少量数字来概括数据? 大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分比等来概括大量数字。 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。 如何用少量数字来概括数据? 可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字是从样本数据得来的,因而也是样本的函数, 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统计量也是随机变量) 如何用少量数字来概括数据? 概括统计量经常对应于总体的无法观测到的某些参数。 这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。 如何用少量数字来概括数据? 注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。 数据的“位置” 数据有位置吗? 数据的“位置” “位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。 和这种“位置”有关的统计量就称为位置统计量(location statistic)。 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k%分位数)。 数据的“位置” 最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(sample mean),以区别于总体均值。 如果记样本中的观测值为x1,…,xn,则样本均值定义为 数据的“位置” (样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。 由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。 数据的“位置” 上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。 数据的“位置” 一般地还称上四分位数为75百分位数(75 pecentile,有75%的观测值小于它),下四分位数为25百分位数(有25%的观测值小于它)。 一般地,k百分位数(k-pecentile)意味着有k%的观测值小于它。 如果令a=k%,则k百分位数也称为a分位数(a-quantile)。 样本中出现最多的数目,称为众数(mode) 数据的“尺度” 这两个数据“胖瘦”一样吗? 数据的“尺度” 数据中数目的分散程度由尺度统计量(scale statistic)来描述。 尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。 数据的“尺度” 从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右边的数据散布范围要小得多。 数据的“尺度” 极差(rang
您可能关注的文档
- PLC基础知识(专科).ppt
- PLC数据存储方式.ppt
- PLC控制电梯—司机与直驶方式毕业答辩.ppt
- PLC特殊功能模块及其应用NEW.ppt
- PLC用于模拟量和位置控制.ppt
- PLC的原理及等效电路.ppt
- PLC模拟量与数字量之间的转换.ppt
- PLC的梯形图程序的设计方法.ppt
- PLC的结构与工作原理.ppt
- PLC系统构成和工作原理.ppt
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江西省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年安徽省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年福建省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年广东省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河南省高考英语试卷(含答案解析)+听力音频.docx
- 2024年湖北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江苏省高考英语试卷(含答案解析)+听力音频+听力原文.docx
最近下载
- 贵州省贵阳市普通中学2021-2022学年高一上学期信息技术期末监测考试试卷.docx VIP
- PCB镀铜针孔专案改善报告.ppt
- 体表肿块切除操作评分标准.doc
- (苏教版)数学二年级上册寒假作业计算题“天天练”,含30份题组,附参考答案.doc
- 2023年福建考评员考试答案.docx VIP
- 第二单元跨学科实践活动1微型空气质量“检测站”的组装与使用课件-九年级化学人教版(2024)上册.pptx
- 数学核心素养在小学教育中的具体应用教学研究课题报告.docx
- 人防工程战时给排水设备安装深度及注意问题.pptx
- 上海交通大学《社会心理学》内部题库练习期末真题汇编及答案.pdf
- 《工程制图及 CAD》课程思政教学案例(一等奖).docx
文档评论(0)