统计学重点.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学重点剖析

第一章 1、数据类型:按照所采用的计量尺度不同,我们将数据分为:分类数据(归于某一类别的非数字型数据,ex:血型),顺序数据(有序类别的非数据型数据,ex:喜好,产品等级),数值型数据(按照数字尺度测量的观测值) 2、统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数,样本统计量通常用小写英文字母表示,若存在未知变量就不是统计量。 第二章 1、概率抽样(随机抽样): (1)特点:按一定的概率以随机原则抽取样本(抽取样本时使每个单位都有一定的机会被抽中)。每个单位被抽中的概率是已知的,或是可以计算出来的。当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率 (2)简单随机抽样:体现在每一个样本点的选取上(简单直观方便,但是效率低) (3)分层抽样:适用于总体差距大,体现在每一??样本点选取上(精度最高) (4)系统抽样:第一个样本点的选取是随机的(简单,提高精度,但是方差估计难) (5)整群抽样:要求:群集间互斥且周延,群集与群集间差异小,群集内类似总体 每一群的选取是随机的(简单,相对集中,方便,但是精度较差) (6)多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。 2、非概率抽样 (1)抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查 (2)有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式 3、比较: 4、抽样误差:所有样本可能的结果与总体真值之间的平均性差异 影响因素:样本量的大小、总体的变异性 第三章 1、数据审核: (1)原始数据:完整性,准确性;(2)二手数据:适用性,时效性,确认是否有必要做进一步的加工整理 2、分类数据的图示: (1)条形图:主要反映分类数据的频数分布 (2)帕累托图:各类别数据出现的频数多少排序的柱形图,用于展示分类数据分布。 (3)饼图:主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。 (4)环形图:同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。用于结构比较研究、用于展示分类和顺序数据 3、数值型数据的整理: (1)分组方法:1、单变量值分组,2、组距分组(1、等距分组,2、异距分组) 4、组距分组: (1)等距分组:连续性组距数列的统计原则:“上组限不在内”等距分组一般在变量值变动比较均匀的条件下所有。做法:先用定性方法确定组数,再用全距除以组数得组距。 即:组距(i)=全距(R)/组数(k) (2)异距分组:异距分组一般在变量值变动不均匀,急剧上升或下降的条件下所有。或当变量值按一定比例发展变化时使用。需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。Ex: 5、图示 (1)分组数据-直方图:(与条形图的区别) 1、条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)是固定的 2、直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 3、直方图的各矩形通常是连续排列,条形图则是分开排列 4、条形图主要用于展示分类数据,直方图则主要用于展示数值型数据 (2)分组数据-折线图:是在直方图的基础上,把直方图顶部的中点(组中值)连接起来。 (3)未分组数据-茎叶图:以高位数值作树茎,低位数字作树叶,适用于小批量数据 (4)未分组数据-箱线图:由最大值、最小值、中位数和两个四分位数绘制而成。 (5)时间序列数据-线图:长宽比例大致为10 : 7,时间一般绘在横轴,数据绘在纵轴 (6)多变量数据-二维散点图:展示两个变量之间的关系 (7)多变量数据-气泡图:展示三个变量之间的关系,数据点的大小依赖于第三个变量。 (8)多变量数据—雷达图:蜘蛛图,在显示或对比各变量的数值总和时十分有用 6、统计表的设计 合理安排统计表的结构 总标题内容应满足3W 要求 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明 表中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“—”表示 必要时可在表的下方加上注释 第四章 1、众数:异距数列,用频数密度 2、中位数: 3、四分位数: 4、分类数据-异众比率:非众数组的频数占总频数的比例,对分类数据离散程度的测度 5、顺序数据-四分位差: 对顺序数据离散程度的测度,用于衡量中位数的代表性,上四分位数与下四分位数之差,即Q3-Q1。 6、方差和标准差: 分

文档评论(0)

1520520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档