描述性统计分析211535103531750.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
描述性统计分析211535103531750

描述性统计分析 本文由应用教程贡献 LOGO 描述性统计分析 统计分析的基本概念 武汉大学计算中心 LOGO 进行数据分析首先应: 进行数据分析首先应: 明确分析的目的 明确分析的对象 确定是否需要抽样 在一些问题中,要考查整个总体往往是不可能的,因 为要耗费太多的时间和资源 确定需要记录的数据项目 武汉大学计算中心 LOGO 1. 总体和样本 总体( 总体(population)是所研究 ) 的指标测量值的集合. 的指标测量值的集合. 抽样(sampling)是 指从总体中抽取部分 的做法. 样本(sample)通过 抽样得到的总体的一 个子集. 总体 样本 武汉大学计算中心 LOGO 抽样方法 简单随机抽样:在抽样的过程中, 简单随机抽样:在抽样的过程中,任何一个样本 被选中的机会都相同. 被选中的机会都相同. 利用计算机产生的随机数(对于有限总体), 可模拟简单随机抽样,如对学生的学号用随机 数进行抽样 对于无限总体不能进行标号,抽样过程不能用 随机数,难于实施 分层抽样:按数据的层次进行抽样. 分层抽样:按数据的层次进行抽样. 如小学生的身高,按每年级分为一个层 武汉大学计算中心 LOGO 分层抽样的优点 抽取的样本在总体中分布得更均匀, 抽取的样本在总体中分布得更均匀,更合理 个层内单位之间差异程度相对减小, 个层内单位之间差异程度相对减小,使在该层内 抽取的样本对该层的代表性得到提高 层内成员差异小,而层间成员差异较大时, 层内成员差异小,而层间成员差异较大时,分层 抽样可以提高估计的精度 武汉大学计算中心 LOGO 2. 参数和统计量 对总体概括度量值和对样本概括度量值所用的方 法及名称是不同的. 法及名称是不同的. 总体的度量值称为参数(parameters),样本的 总体的度量值称为参数 , 度量值称为统计量(statistics). 度量值称为统计量 . 通常,总体参数是未知的 总体参数是未知的,SAS系统给出的描述统 通常 总体参数是未知的 系统给出的描述统 计量适用于样本. 计量适用于样本. 武汉大学计算中心 LOGO 2. 参数和统计量 参数( ):总体的度量值 参数(parameters):总体的度量值. ):总体的度量值. 统计量( ):样本的度量值 统计量(statistics):样本的度量值. ):样本的度量值. 一般总体参数用希腊字母表示: 一般总体参数用希腊字母表示: 均值 方差 标准差 σ σ2 总体 样本 X s2 s 武汉大学计算中心 LOGO 3. 自由度 自由度是某一统计量中, 自由度是某一统计量中,变量可以自由取值的个 数 表示自由度. 用df表示自由度. 表示自由度 [例]变量 有n个取值, df=n;若它们受到 变量X有 个取值 个取值, 例 变量 ; k(kn)个条件制约,则df=n-k 个条件制约, 个条件制约 武汉大学计算中心 LOGO 4. 表示数据位置的统计量 均值( 均值(M ean): ): 所有观测值的平均值. 所有观测值的平均值. x = (∑ xi ) / n i =1 n 中位数( ):用以描述数据取 中位数(Median或Med):用以描述数据取 或 ): 值的中心位置. 值的中心位置. 中位数的计算方法:先将数据从小到大排 序,x1,x2,…,xn然后计算: 中位数的优点是它不受个 别极端数据的影响,具有稳 健性 武汉大学计算中心 LOGO 4. 表示数据位置的统计量 众数( ):观测值中出现最多的数 众数(Mode):观测值中出现最多的数. ):观测值中出现最多的数. 百分位数(Percentile): 描述数据分布和位置的统计 百分位数 量. 0.5分位数就是中位数,0.75分位数和0.25分位数分 别称为上,下四分位数,记为Q3和Q1. 一般地,k百分位数(k-percentile),即约有k%的观 测值小于它. 武汉大学计算中心 LOGO 5. 表示数据分散程度的统计量 极差(Range):数据中最大值和最小值之差. :数据中最大值和最小值之差. 极差 极差 = max{xi } min{xi } 方差(Variance)以变量取值相对于均 方差( ) 值的偏差平方平均来度量(又称均方MS). 值的偏差平方平均来度量(又称均方 ). s = (∑(xi x) ) /(n 1) 2 2 i=1 武汉大学计算中心 n LOGO [例]SAS计算样本方差的步骤 例 计算样本方差的步骤 计算样本均值 计

文档评论(0)

yasou511137 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档