- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学重点剖析
第一章
1、数据类型:按照所采用的计量尺度不同,我们将数据分为:分类数据(归于某一类别的非数字型数据,ex:血型),顺序数据(有序类别的非数据型数据,ex:喜好,产品等级),数值型数据(按照数字尺度测量的观测值)
2、统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数,样本统计量通常用小写英文字母表示,若存在未知变量就不是统计量。
第二章
1、概率抽样(随机抽样):
(1)特点:按一定的概率以随机原则抽取样本(抽取样本时使每个单位都有一定的机会被抽中)。每个单位被抽中的概率是已知的,或是可以计算出来的。当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
(2)简单随机抽样:体现在每一个样本点的选取上(简单直观方便,但是效率低)
(3)分层抽样:适用于总体差距大,体现在每一??样本点选取上(精度最高)
(4)系统抽样:第一个样本点的选取是随机的(简单,提高精度,但是方差估计难)
(5)整群抽样:要求:群集间互斥且周延,群集与群集间差异小,群集内类似总体
每一群的选取是随机的(简单,相对集中,方便,但是精度较差)
(6)多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。
2、非概率抽样
(1)抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查
(2)有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式
3、比较:
4、抽样误差:所有样本可能的结果与总体真值之间的平均性差异
影响因素:样本量的大小、总体的变异性
第三章
1、数据审核:
(1)原始数据:完整性,准确性;(2)二手数据:适用性,时效性,确认是否有必要做进一步的加工整理
2、分类数据的图示:
(1)条形图:主要反映分类数据的频数分布
(2)帕累托图:各类别数据出现的频数多少排序的柱形图,用于展示分类数据分布。
(3)饼图:主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。
(4)环形图:同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。用于结构比较研究、用于展示分类和顺序数据
3、数值型数据的整理:
(1)分组方法:1、单变量值分组,2、组距分组(1、等距分组,2、异距分组)
4、组距分组:
(1)等距分组:连续性组距数列的统计原则:“上组限不在内”等距分组一般在变量值变动比较均匀的条件下所有。做法:先用定性方法确定组数,再用全距除以组数得组距。
即:组距(i)=全距(R)/组数(k)
(2)异距分组:异距分组一般在变量值变动不均匀,急剧上升或下降的条件下所有。或当变量值按一定比例发展变化时使用。需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。Ex:
5、图示
(1)分组数据-直方图:(与条形图的区别)
1、条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)是固定的
2、直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
3、直方图的各矩形通常是连续排列,条形图则是分开排列
4、条形图主要用于展示分类数据,直方图则主要用于展示数值型数据
(2)分组数据-折线图:是在直方图的基础上,把直方图顶部的中点(组中值)连接起来。
(3)未分组数据-茎叶图:以高位数值作树茎,低位数字作树叶,适用于小批量数据
(4)未分组数据-箱线图:由最大值、最小值、中位数和两个四分位数绘制而成。
(5)时间序列数据-线图:长宽比例大致为10 : 7,时间一般绘在横轴,数据绘在纵轴
(6)多变量数据-二维散点图:展示两个变量之间的关系
(7)多变量数据-气泡图:展示三个变量之间的关系,数据点的大小依赖于第三个变量。
(8)多变量数据—雷达图:蜘蛛图,在显示或对比各变量的数值总和时十分有用
6、统计表的设计
合理安排统计表的结构
总标题内容应满足3W 要求
数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明
表中的上下两条横线一般用粗线,其他线用细线
通常情况下,统计表的左右两边不封口
表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一
对于没有数字的表格单元,一般用“—”表示
必要时可在表的下方加上注释
第四章
1、众数:异距数列,用频数密度
2、中位数:
3、四分位数:
4、分类数据-异众比率:非众数组的频数占总频数的比例,对分类数据离散程度的测度
5、顺序数据-四分位差:
对顺序数据离散程度的测度,用于衡量中位数的代表性,上四分位数与下四分位数之差,即Q3-Q1。
6、方差和标准差:
分
文档评论(0)