第五章 统计方法(1).pptVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 统计方法 本章目标 阐述统计推论在数据挖掘中的一些常用方法。 介绍评价数据集的差异的不同统计参数。 描述朴素贝叶斯分类和对数回归方法的内容和基本原理。 用列联表的相关分析介绍对数线性模型。 论述方差分析和多维样本的线性判别分析的一些概念。 统计学是一门收集、组织数据并从这些数据中得出结论的科学。数据集的一般特性的描述和组织是描述性统计学的主题领域,而怎样从这些数据推出结论是统计推理的主题。 统计数据分析是为数据挖掘制定的最好的一套方法论。从一元的到多元的数据分析,统计学为数据挖掘提供了大量的不同类型的回归和判别分析方法。 5.1 统计推断 在统计推断这个领域,如果观测到组成总体的所有观测值是不可能或不切实际的,只要关心怎样得出关于总体的结论。 在大多数统计分析应用中,必须依据从总体中抽取的子集的观测值。称这个子集为数据集,从这个数据集建立一个总体的统计模型,从而对相同的总体作推断。 问题是它可能导致对总体错误的推断,因此最好是在独立的、随机观察的情况下选取一个随机的数据集。 统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个置信度或一个置信区间。 我们的目标是从数据集T中获得信息来估计现实系统f(X,w)模型的一个或更多的参数w。 数据集可用下式描述: T={(x11,…,x1n), (x21,…,x2n) (xm1,…,xmn)} 上式可作为一组具有相应特征值的样本被列成表格的形式。只要估计出这个模型的参数,就能用来预测随机变量Y,Y是T中固有的一个属性Y∈X。如果Y是数值数据,称为回归,如果是离散的、无序的数据,称为分类。 当估计出数据集的参数模型w后,就可用该模型(以函数f(X*,w)给出)的结论去预测Y。 预测值与真实值Y之间的差称为预测误差。 对于Y的预测值,模型f(X*,w)的自然属性度量指标是整个数据集T的期望均值平方差:     ET[Y-f(X*,w)2] 至于假设检验相关课程已有介绍。 5.2 评测数据集的差异 许多数据挖掘项目,了解给定数据集的更多有关中心趋势分布的一些特征是非常有用的。平均数mean、中位数median和众数mode是反映数据的中心趋势的典型指标,而方差和标准差是反映数据离散程度的指标。 平均数: 加权平均数: 中位数:对偏斜数据集来说,中位数更能反映它的中心趋势。 数值数据分散的程度为数据的离散度。反映离散度最常用的指标是标准差和方差。 n个数据值的x1,x2,…xn的方差是: 5.3 贝叶斯定理 不难想象,数据不是总体或系统建模时惟一可利用的信息资源。贝叶斯方法提供了一套将外部客观信息溶入数据分析过程中的原理方法。它为解决归纳-推理分类问题的统计方法提理论依据。 贝叶斯定理:   设X是一个未知类标号的数据样本,设H为某种假定:数据样本X属于特定的类C。我们希望确定P(H|X),即给定观测数据样本X后假定H成立的概率。 贝叶斯定理给出数据集X后我们对假设的信任度的后验概率。贝叶斯定理提供了一种由概率P(H)、P(X)和P(X|H)计算后验概率P(H|X)方法,其基本关系是:    P(H|X)=[P(X|H)P(H)]/P(X) P(H|X)是后验概率,或条件X下H的后验概率。例如,假设数据空间由水果组成,用它们的颜色和形状描述。假设X表示红色和圆的,H表示假定X是苹果,则P(H|X)反映当我们看到X是红色并是圆的时,我们对X是苹果的确信程度。作为对比,P(H)是先验概率,或H的先验概率。 现在假设有一组m个元素的样本s={s1,s2,…,sn},其中每一个样本Si代表一个n维向量{x1,x2,…xn},分别对应于属性A1,A2,…,An。并且有k个样本类,每一个样本属于其中一个类。另外给出一个数据样本X(它的类是未知的),可以用最高的条件概率P(Ci|X)(i=1,2,…,n)来预测X的类。 P(Ci|X)的算式:   P(Ci|X)=[P(X|Ci)·P(Ci)]/P(X) 由于P(X)对所有类为常数,只要[P(X|Ci)·P(Ci)]最大即可。 P(Ci)=类别Ci的样本数/样本总数。 P(X|Ci)·P(Ci)计算很复杂,假设样本属性之间条件独立,上式可用一个乘积来表示。 例如:下表是Na?ve Bayesian classifier分类训练数据集。 用训练样本计算所给新样本X={1,2,2,class=?}。 计算P(Ci): P(C=1)=4/7=0.5714; P(C=2)=3/7=0.4286 计算P(xi|Ci): P(A1=1/C=1)=2/4=0.50 P(A1=1/C=2)=1/3=0.33 P(A2=2/C=1)=1/4=0.25 P(

文档评论(0)

awang118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档