- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Mining: Concepts and Techniques 四 分类方法 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 分类是数据挖掘中重要的任务 分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。 分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。 分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。 分类器的构造依据的方法很广泛: 统计方法:包括贝叶斯法和非参数法等。 机器学习方法:包括决策树法和规则归纳法。 神经网络方法。 其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。 分类方法的类型 从使用的主要技术上看,可以把分类方法归结为四种类型: 基于距离的分类方法 决策树分类方法 贝叶斯分类方法 规则归纳方法。 分类问题的描述 定义4-1 给定一个数据库 D={t1,t2,…,tn}和一组类 C={C1,…,Cm},分类问题是去确定一个映射 f: D?C,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj = {ti | f(ti) = Cj,1 ≤ i ≤ n, 而且ti ?D}。 例如,把学生的百分制分数分成A、B、C、D、F五类,就是一个分类问题: D是包含百分制分数在内的学生信息, C={A、B、C、D、F}。 解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。 数据分类的两个步骤 1.建立一个模型,描述预定的数据类集或概念集 数据元组也称作样本、实例或对象。 为建立模型而被分析的数据元组形成训练数据集。 训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。 通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。 2.使用模型进行分类 首先评估模型(分类法)的预测准确率。 如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。 基于距离的分类算法的思路 定义4-2 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)=sim(ti,Cl) ,?Cl∈C,Cl≠Cj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。 决策树表示与例子 决策树(Decision Tree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意 决策树分类的特点 决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。 基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这同时也是它的最大的缺点),只要训练例子能够用属性-结论式表示出来,就能使用该算法来学习。 决策树分类模型的建立通常分为两个步骤: 1、决策树生成 2、 决策树修剪 主要算法有: 1、ID3算法 2、 C4.5算法 贝叶斯分类 定义4-2 设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法: P(H)是先验概率,或称H的先验概率。P(X |H)代表假设H成立的情况下,观察到X的概率。P(H| X )是后验概率,或称条件X下H的后验概率。 贝叶斯分类器对两种数据具有较好的分类效果:一种是完全独立的数据,另一种是函数依赖的数据。 朴素贝叶斯分类 朴素贝叶斯分类的工作过程如下: (1)? 每个数据样本用一个n维特征向量X= {x1,x2,……,xn}表示,分别描述对n个属性A1,A2,……,An样本的n个度量。 (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类
您可能关注的文档
最近下载
- 2025年中国毛绒玩具市场深度调查及投资方向研究报告.docx
- DBJ50_T-194-2014:设施栽培园林植物病虫害防治技术规范.pdf
- 和成 智慧型AF889(L)免治沖洗马桶座 说明书.pdf
- 【河南江西新疆卷】江西省河南省新疆三省2025届G20示范高中12月高三联考(12.19-12.20)数学试卷含答案及解析.pdf
- 角膜常见疾病护理.pptx VIP
- 2025届广西高三上学期期末调研考试数学试题 (解析版).docx
- 氢气竖炉直接还原炼铁新工艺.pdf
- 《毛概论》试题库及答案.pdf VIP
- 毛概论试题库..doc VIP
- 23版概论专题一马克思主义中国化时代化的历史进程与理论成果.pptx VIP
文档评论(0)