网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘的统计方法-知识管理与数据分析实验室.ppt

数据挖掘的统计方法-知识管理与数据分析实验室.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的统计方法-知识管理与数据分析实验室

现代统计分析方法介绍 从高斯(C. F. Gauss)描述天文观测的误差而引进正态分布,并使用最小二乘法作为一种估计方法至今,现代统计的发展已有200多年的历史。统计学在分析数据、探索数据规律性、研究现实问题中已形成许多各具特点的思想方法。从研究问题的角度,可将现代统计分析方法分为四大类:分类分析方法、结构简化方法、相关分析方法、预测决策方法。 统计分析方法应用的步骤及其流程 对统计分析方法的应用应从实际问题出发,明确具体问题和目标,然后确定理论以及相应的指标,在收集和整理数据的基础上构造满足需求的模型并进行统计计算,在对模型进行检验的基础上,对模型加以推广应用。 常用统计分析方法举例 正态分布 正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。因其曲线呈钟形,因此人们又经常称之为钟形曲线。 正态分布的历史 正态分布最早是棣莫佛在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛-拉普拉斯定理。 正态分布的应用 区间估计和假设检验 区间估计 假设检验 参数的区间估计与假设检验的关系 回归分析 方差分析的分类 知识管理与数据分析实验室 知识管理与数据分析实验室 现代统计分析方法概述 * * 知识管理与数据分析实验室 主要内容 * 知识管理与数据分析实验室 * 现代统计分析方法介绍 常用统计分析方法举例 正态分布 区间估计和假设检验 回归分析 方差分析 其数学定义如下: 若随机变量X的密度函数为 则称X服从正态分布,称X为正态变量,记作 。 正态分布 的分布函数为 拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。 正态分布是很多统计方法的理论基础,正态分布在现实中的应用也是最为广泛的,包含自动控制、质量管理、医学管理、经济分析及评价、风险评估等多个方面。 正态分布在自动控制、优化设计、包装或加工零件的精度等方面有着广泛的应用。正态分布的均值就是自动控制的设定值,方差就是自动控制的精度;方差越小,精度越高,系统的性能越好 质量控制方面,为了控制实验中的测量(或实验)误差,常以3σ作为上、下警戒值,以3σ作为上、下控制值。这样做可以保证正常情况下测量(或实验)误差服从正态分布 医学应用方面,某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理 经济分析及风险评估方面,正态分布在投入产出、经济分析、风险收益、风险价值度量等诸多方面的应用越来越广泛,为经济分析、经济评价以及风险评估提供了多样的方法选择,使评估结果更加科学 参数的区间估计和假设检验是两种最重要的统计推断形式,掌握这两种方法对做出正确的统计推断至关重要 区间估计 设 是总体的一个参数, 是样本,所谓区间估计就是要找两个统计量 和 ,使得 ,在得到样本观测值之后,就把 估计在区间 内 假设检验 假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断 置信区间: 设 是总体的一个参数,其参数空间为 , 是来自该总体的样本, ,若有两个统计量 和 若对任意的 ,有 ,则称随机区间 为 的置信水平 的置信区间 对给定的一个 为 置信水平 的频率解释: 在大量重复使用 的置信区间 时,每次得到的样本观测值是不同的, 从而每次得到的区间估计值也是不一样的,对一次具体的观测值而言, 可能在 内,也可能不在。平均而言,在这大量的区间估计观测值中,至少有 包含 假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P0.01或P0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立 假设检验的一般步骤: 应注意的问题 1、做假设检验之前,应注意资料本身是否有可比性。 2、当差别有统计学意义时应注意这样的差别在实际应用中有

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档