网站大量收购闲置独家精品文档,联系QQ:2885784924

贝叶斯分类(数据挖掘).ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯分类(数据挖掘)

6.4 Bayesian Classification Bayesian Classification 贝叶斯分类是一种统计分类方法。 在贝叶斯学习方法中实用性最高的一种是朴素贝叶斯分类方法。 本节主要介绍贝叶斯的基本理论,和朴素贝叶斯的原理和工作过程,并给出一个具体的例子。 Bayesian Theorem: Basics 设 X是类标号未知的数据样本。 设H为某种假设,如数据样本X属于某特定的类C。 对于分类问题,我们希望确定P(X|H),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(X|H)的简单有效的方法: P(H):先验概率,或称H的先验概率。 P(X/H):代表假设H成立情况下,观察到X的概率。 P(H/X):后验概率,或称条件X下H的后验概率。 贝叶斯基本理论的例子: Na?ve Bayes Classification 朴素贝叶斯分类的工作过程如下: (1).每个数据样本用一个n维的特征向量 表示,分别描述对n个属性 样本的n个度量。 (2).假定m个类 ,给定一个未知的数据样本X,分类器将预测X属于具有最高后验概率的类。也就是说,朴素贝叶斯分类将未知的样本分配给类 ,当且仅当: ,其中 这样,最大化 ,其 最大的类 称为最大后验假定。根据贝叶斯定理: (3).由于P(X)对于所有类为常数,只需要 最大即可。如果 类的先验概率未知,则通常假定这些类是等概率的,即 。 因此问题就转换为对 的最大化。 ( 常被称为给定 时数据X的似然度, 而使 最大的假设 称为最大似然假设)。 否则,需要最大化 。 注意: 类的先验概率可以用 计算,其中 是类 中的训练样本数,而s是训练样本总数。 (4).给定具有许多属性的数据集,计算 的开销可能非常大。为降低计算 的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互独立,即在属性间,不存在依赖关系。这样: 其中概率 可以由训练样本估值。 ①如果 是离散属性,则 ,其中 是在属性 上的具有值 的类 的训练样本数,而 是 中的训练样本数。 ②如果 是连续值属性,则通常假定该属性服从高斯分布,因而: 是高斯分布函数。 分别为平均值和标准差。 我们通过在全部时间基础上观察某事件出现比例来估计概率。 例如,在下例中,估计P(age≤30|buys_computer=“yes”)使用的是比值 。 其中n=9为所有30|buys_computer=“yes”的训练样本。 而 是在其中age≤30的数目。 * * 假设数据样本由水果组成,用它们的颜色和形状来描述。并做如下假设: X:表示假设红色和圆形的。 H:表示假设X是苹果。 则: P(H/X)反映当我们看到X是红色并且是圆形的时候,我们对X是苹果的确信程度。 从直观上看, P(H/X)随着P(H)和 P(H/X)的增长而增长,同时也可以看出P(H/X)随P(X)的增加而减小。 这是很合理的,因为如果X独立于H时被观察到

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档