第七章 分类与预测.ppt

  1. 1、本文档共199页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 贝叶斯信念网络 注意: 网络的内部节点可以选作“输出”节点,代表类标号属性;贝叶斯网络可以有多个输出节点。 贝叶斯信念网络的分类过程返回的不是单个类标号,而是返回类标号属性的概率分布,即预测每个类的概率。 一个简单的例子 根据左图,对下雨(R)引起草地变湿(W)进行建模。 P(R)=0.4:天下雨的可能性为40%;推知, P(~R)=0.6 :下雨时草地变湿的可能性为90%;推知P(~W/R)=0.1 :草地变湿而实际上并没有下雨的可能性为20%,例如,使用喷水器喷水。由此推知: * P(W/~R)=0.2 P(~W/~R)=0.8 * 这是一个因果图,解释草地变湿的主要原因是下雨。 如果颠倒因果关系,如已知草地是湿的,则应该如何推断下过雨的概率? * 已知草地是湿的,则应该如何推断下过雨的概率? 现在,假设我们想把喷水器(S)作为草地变湿的另一个原因,如下图所示。 此时,节点W(草地湿)有两个父节点R和S,因此它的概率是这两个值上的条件概率 。 则,喷水器开着时,草地会湿的概率如何推断? * * =0.9 =0.1 给定草地是湿的,我们能够计算喷水器开着的概率。这是一个诊断推理。 * 其他的分类方法 基于案例的推理; 遗传算法; 粗糙集; 模糊集; 其他。。。 * 基于距离的分类算法? 决策树的几种生成算法。 贝叶斯分类的原理? 复习与思考问题 * * * * quack [简明英汉词典] [kwAk] v.(指鸭)呷呷地叫, 大声闲聊, 吹嘘 n.(鸭子)呷呷叫声, 庸医, 骗子 adj.骗人 * * * * * * * * * * 先验概率P(cj) P( cj|x) = P(x|cj)P(cj) P(x) 后验概率P(x|cj) 后验概率P(cj|x) 贝叶斯分类 先验概率P(cj) P(cj) 为类cj的先验概率(prior probability) ,它反映了我们所拥有的关于cj是正确分类的背景知识。 通常可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似,即: 后验概率P(x|cj)指的是当已知类别为cj的条件下,样本x出现的概率。 后验概率P(x|cj) 若设x = a1,a2…am,且属性值相互条件独立,即在属性间,不存在依赖关系,则 P(x|cj)= P(a1,a2…am| cj) 后验概率P(cj |x) 即给定数据样本x时cj成立的概率,而这正是我们所感兴趣的。 P(cj|x )被称为C的后验概率(posterior probability),因为它反映了在得到数据样本x后cj成立的置信度. 贝叶斯分类 计算 Pmax (ci|x) = max P(cj|x) j∈(1,|C|) 则Pmax (ci|x)称为最大后验概率,并将x分到ci类中. 2. 朴素贝叶斯分类? 朴素贝叶斯分类的工作过程 (1)每个数据样本X用一个n维特征向量:X={x1,x2,…,xn}表示,分别描述对n个属性(A1,A2,…,An)的具体取值; (2)假定共有m个不同类别,C1,C2,…,Cm。给定一个类别未知的数据样本X,分类法将在已知X情况下,将X赋于后验概率最大的那个类别。即,朴素贝叶斯分类将类别未知的样本X归属到类别Ci,当且仅当: 即,最大化P(Ci\X)。其中的类别Ci称为最大后验假定。根据贝叶斯定理,有: 朴素贝叶斯分类的工作过程 (3)由于P(X)对于所有的类别均是相同的,因此只需要计算P(X\ Ci)P(Ci)取最大即可。 如果各类别的先验概率未知,通常假定这些类是等概率的,即:P(C1)=P(C2)=…=P(Cm)。这样变成只需要对P(X\ Ci)求最大,否则就要P(X\ Ci)P(Ci)取最大。 否则,一般可以通过P(Ci)=si/s进行估算,其中si为训练样本集合中类别Ci的个数,s为整个训练样本集合的大小。 朴素贝叶斯分类的工作过程 (4)对于包含多个属性的数据集,直接计算P(X\ Ci) 的运算量是非常大的。为实现对P(X\ Ci)的有效估算,朴素贝叶斯分类通常假设各属性是相互独立的,即在属性间,不存在依赖关系,则对于给定的类别Ci ,有: 而P(x1\ Ci), P(x2\ Ci),…, P(xn\ Ci)的值,可以由训练样本集进行估算。具体处理如下: 朴素贝叶斯分类的工作过程 1)如果Ak是符号属性,则P(xk\Ci)=sik/si,:其中sik为训练样本中类别为Ci且属性Ak取值vk的样本数,si为训练样本中类别为C

文档评论(0)

文档资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档