数据挖掘5-分类讲述.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘5-分类讲述

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 超盒收缩的的图表示 以上3步执行完成后,训练过程即告结束。生成的超盒构成了一个模糊分类器。 下图显示了两维问题中超盒的分布和对应的分类界面。值得注意的是,虽然超盒的边界必定与坐标轴垂直,而它们及其模糊外延形成的分类边界却是不规则的。对于类别未知样本,FMMNN根据(5-1)式计算它到所有超盒的隶属度,取隶属度最大的超盒的类别作为该样本的类别。 二维空间中超盒的分布情况 对应的分类界面 (“*”表示“1”类样本,“O”表示“2”类样本) 基于距离空间的KNN方法及其衍生方法 基于归纳的决策树分类方法 基于最优判别平面或多面体的分类方法 基于模糊理论的分类方法 基于概率统计的Bayes分类算法 基于概率统计的Bayes分类算法 贝叶斯分类是一个统计学分类方法。它们能够预测一个要进行分类判断的数据对象属于某个类别的概率。 贝叶斯分类是基于贝叶斯定理(以下将会介绍)构造出来的。 朴素贝叶斯分类(Na?ve Bayesian classification)假设一个指定类别中各属性的取值是相互独立的。这一假设也被称为:类别条件独立,它可以帮助有效减少在构造贝叶斯分类时所需要进行的计算量。 对分类方法进行比较的有关研究结果表明:基本贝叶斯分类在分类性能上与决策树和神经网络相媲美。在处理大型数据库时,贝叶斯分类法已表现出较高的分类准确性和运算性能。 背景知识:Bayes theorem e.g. 用color和shape描述水果 Color shape fruit Yello Long Banana Red Round Apple Green Round Apple Red Round Tomato … … … x:Red Round ? 假定,(相关的假设)H:x是apple 则 P(x):所有训练样本中,color=red,shape=round的水果的概率 P(H):所有训练样本中,fruit=apple的概率 P(x|H):已知训练样本中,fruit=apple情况下,color=red,shape=round的概率 P(H|x):测试记录为(color=red,shape=round)时,该样本属于apple的概率 P(x),P(H),P(x|H)皆为可计算项,所以可由这三项计算出x属于某一类的概率大小P(H|x). Bayes公式的实质:从先验概率P(Ci)到后验概率P(Ci|x) 2. Na?ve Bayes classification method (基于最小错误率的Bayes方法) 按照Bayes理论求后验概率P(Ci|x),到时哪个概率大,就被归到哪一类。 Example: 已知一个训练集,4个属性,14个样本,用Bayes方法判定第15号样本属于哪一类。 序号 属 性 类别 天气 温度 湿度 风力 1 晴 热 高 无 2 2 晴 热 高 有 2 3 阴 热 高 无 1 4 雨 暖 高 无 1 5 雨 凉 正常 无 1 6 雨 凉 正常 有 2 7 阴 凉 正常 有 1 8 晴 暖 高 无 2 9 晴 凉 正常 无 1 10 雨 暖 正常 无 1 11 晴 暖 正常 无 1 12 阴 暖 正常 有 1 13 阴 热 正常 无 1 14 雨 暖 高 有 2 15 雨 暖 正常 无 ? 3. 贝叶斯信念网络 朴素贝叶斯分类是基于各类别相互独立这一假设来进行分类计算的,也就是要求若给定一个数据样本类别,其样本属性的取值应是相互独立的。这一假设简化了分类计算复杂性。若这一假设成立,则与其它分类方法相比,基本贝叶斯分类是最准确的;但实际上变量间的相互依赖情况是较为常见的。 贝叶斯信念网络就是用于描述这种相互关联的概率分布(联合条件概率分布)。该网络能够描述各属性子集之间有条件的相互独立。它提供了一个图形模型来描述其中的因果关系,而学习也正是基于这一模型进行的。这一图形模型就称为贝叶斯网络、贝叶斯信念网络(或简称为信念网络)。 信念网络组成 1.有向无环图 其中的每一个结点代表一个随机变量;每一条弧(两个结点间连线)代表一个概率依赖。 若一条弧从结点Y到结点Z,那么Y就是Z的一个父结点,Z就是Y的一个子结点。给定父结点,每个变量有条件地独立于图中非子结点。 变量既可取离散值,也可取连续值。它们既可对应数据集中实际的变量,也可对应数据集中的“隐

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档