- 1、本文档共88页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析基础要点
1.2单变量的统计描述集中趋势的的描述指标 1.2.1 算术平均 算术平均(Arithmetic Mean)是最常用的描述集中趋势的统计量。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。 一、算术平均数的定义和性质 1.2.2 中位数 中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。 对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为: 则中位数就可以按下列方式确定: 中位数的适用范围:具有稳健性。 被平均的实例。 1.2.3其他集中趋势指标 一、截尾均数 由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数河源均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截为均数更好地反映数据的集中趋势。 常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。 1.3 离散趋势的描述指标 1.3.1全距(Range) 又称为极差,是一组数据中最大值(Maximun)与最小值(Minimum)之差。 极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。 极差存在两点不足: 一是它仅仅取决于两个极端之的水平,不能反映其间的变量分布情况,提供的信息太少。 二是它容易受个别极端值的影响,不符合稳健型的要求。 1.3.2 方差和标准差 方差(Variance)和标准差(Standard Deviation)的定义 将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观察例数N,就得到方差: 方差越大,数据分布离散程度越大。 对于样本数据而言,方差的计算公式为: 将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。 1.3.3 百分位数、四分位数与四分位数间距 三、奇异值 数据点到主体边缘的距离超过箱高的1.5倍。 上奇异值=(75%百分位数-25%百分位数)*1.5+75%百分位数 下奇异值=25%百分位数-(75%百分位数-25%百分位数)*1.5 四、极端值 数据点到主体边缘的距离超过箱高的3倍。 上极端值=(75%百分位数-25%百分位数)*3+75%百分位数 下极端值=25%百分位数-(75%百分位数-25%百分位数)*3 1.3.4 变异系数 当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况: (1)测量尺度相差太大; (2)数据量纲不同 在以上情形中,就应当消除测量尺度和量纲的影响,而变异系数(Coefficient of Variance),它是标准差和其平均数的比率。 1.5. 实例 1.5.1 使用Explore过程进行分析 探索分析是对数据进行初步的观察分析,主要的分析项目有: 观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。 正态分布检验:检验数据是否服从正态分布。 方差齐性的检验:用Levene检验比较各组的方差是否相等。 二、基本的分析结果 三、输出百分位数和极端值列表 身高 Stem-and-Leaf Plot for sex= 男 Frequency Stem Leaf 1.00 15 . 9 .00 16 . 9.00 16 . 555778999 20.00 17 . 00000000011112334444 24.00 17 . 555555555556677777788889 12.00 18 . 000000122234 3.00 18 . 668 Stem width: 10 Each leaf: 1 case(s) 四、使用其他过程过程进行分析 1、Descriptive过程的结果 2.多元统计分析初步第一节 引言 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵。例如在研究公司的运营情况时,要考虑公司的获利能力、资金周转能力、竞争能力以及偿债能力等财务指标;又如在研究国家财政收入时,税收收入、企业收入、债务收入、国家能
文档评论(0)