- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类规则挖掘分析与设计-Read
第9章
分 类 规 则 挖 掘 与 预 测
主要内容
分类与预测的基本概念
决策树方法
分类规则挖掘的ID3算法
其他分类规则挖掘算法
分类规则的评估
微软决策树及其应用
9.1分类与预测的基本概念
1. 什么是分类
数据分类(data classfication)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。
数据分类(data classfication)是一个两个步骤的过程:
第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)。通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由类标号属性确定。用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。由于给出了类标号属性,因此该步骤又称为有指导的学习。如果训练样本的类标号是未知的,则称为无指导的学习(聚类)。学习模型可用分类规则、决策树和数学公式的形式给出。
第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。
(a)学习
(b)分类
图9-1 数据分类过程
2. 常用的分类规则挖掘方法
分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有以下几种方法,不同的方法适用于不同特点的数据:
决策树方法
贝叶斯方法
人工神经网络方法
约略集方法
遗传算法
典型的分类规则挖掘算法有:
ID3
C4.5
DBlearn等
3. 什么是预测
预测(prediction)是构造和使用模型评估无标号样本类,或评估给定的样本可能具有的属性或区间值。分类和回归是两类主要的预测问题。分类是预测离散值,回归用于预测连续或有序值。
4. 分类和预测数据的预处理
数据清理:使用平滑技术消除或减少噪声;处理空缺值。
相关性分析:删除与分类或预测无关的属性;删除冗余属性。
数据变换:使用概念分层将数据概化到高的层次;连续值属性概化为离散区间;数据规范化,即将某一属性的所有值按比例缩放,使其落入指定的区间。
5. 分类方法的评估标准
准确率:模型正确预测新数据类标号的能力。
速度:产生和使用模型花费的时间。
健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。
伸缩性:对于给定的大量数据,有效地构造模型的能力。
可解释性:学习模型提供的理解和观察的层次。
9.2决策树方法
决策树方法的起源是概念学习系统CLS,然后发展到Quiulan研制ID3方法,CART算法和Assistant。Decision Tree)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(internal node)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(leaf)代表某个类(class)或者类的分布(class distribution),最上面的结点是根结点。
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。是为了解决这个问题而建立的一棵决策树,从中可以看到决策树的基本组成部分:决策结点、分支和叶。
图9-2 buys_computer的决策树
这棵决策树对销售记录进行分类,指出一个电子产品消费者是否会购买一台计算机“buys_computer”。每个内部结点(方形框)代表对某个属性的一次检测。每个叶结点(椭圆框)代表一个类:
buys_computers=yes 或者
buys_computers=no
在这个例子中,样本向量为:
(age, student, credit_rating; buys_computers)
被决策数据的格式为:
(age, student, credit_rating)
输入新的被决策的记录,可以预测该记录隶属于哪个类。
2. 使用决策树进行分类
构造决策树是采用自上而下的递归构造方法。以多叉树为例,如果一个训练数据集中的数据有几种属性值,则按照属性的各种取值把这个训练数据集再划分为对应的几个子集(分支),然后再依次递归处理各个子集。反之,则作为叶结点。
决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为(a = b)的逻辑判断,其中a b是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。
(3)返回N作为叶结点,用类C标记;
(4)if attribute_list 为空 then
(5)返回N作为叶结点,标记samples中最普通的类;
//多数表决
(6
您可能关注的文档
- 农业源氨排放影响因素研究进展-生态与农村环境学报.PDF
- 农业生产具有两个显着特点.PPT
- 农业观的生命醍醐.DOC
- 农作物病虫电视预报制作-系统发生错误.DOC
- 农村企业经营管理-安丘职业中等专业学校.DOC
- 农村生活污水处理技术指引-宁夏环保厅.PDF
- 农民专业合作社登记-广州工商局.DOC
- 农民工就业与就业促进问题实证研究-----以北京为例首都经济贸易.PPT
- 农民工工资支付管理通知-济宁建筑业信息网.DOC
- 农田水利工程技术.PDF
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
文档评论(0)