- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘定义
机器学习
数据查询
专家系统
数据挖掘过程/作用/技术/应用
Weka数据挖掘软件;
清华大学出版社
本章目标
·掌握数据挖掘的定义
·了解机器学习中的基本方法
-概念学习
-归纳学习
-有指导的学习
-无指导的聚类
·了解与数据挖掘有关的数据查询、专家系统
·了解数据挖掘的过程、作用、技术、应用
·掌握Weka数据挖掘软件的使用方法;
1.1数据挖掘定义;
·技术角度
-利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。
-目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。
-数据挖掘与计算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。
·学科角度
-数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。;
-商业智能信息处理技术;
-围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。;
1.2机器学习;
清华大学出版社
1.2.1概念学习
·通过对大量实例进行训练,从中发现经验化规律的过程。
·机器学习结果的通常表现形式为概念。
·机器最擅长的是学习概念。
·概念(Concept)
-具有某些共同特征的对象、符号或事件的集合。
·概念可以从三个不同的角度来看待;
1、传统角度(ClassicalView)
-所有概念都有明确的定义。
2、概率角度(ProbabilisticView)
-对个别样本实例进行概括性描述,概括性说明构成了概率角度中的概念。
3、样本角度(ExemplarView)
-样本角度中的概念是将某个概念中的典型实例组成一个集合,使用该集合来描述概念定义。;
·基于归纳的学习
-机器学习方式
-人类学习最重要方式之一
·人类通过对事物的特定实例的观察,对所掌握的已有经验材料研究。
·归纳学习
-从归纳中获取和探索新知识,并以概念的形式表现出来的学习。;
1.2.3有指导的学习(SupervisedLearning)
·定义
-通过对大量已知分类或输出结果值的实例进行训练,调整分类模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。
·数据实例(Instance)
-用于有指导学习的样本数据
·训练实例(TrainingInstance)
-用于训练的实例
·检验实例(TestInstance)
-分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。;
给定如表1.1所示的数据集T,使用有指导的学习方
法建立分类模型,对未知类别的实例进行分类。;
表1.1感冒诊断假想数据集;
清华大学出版社
决策树(DecisionTree)
·倒立树,非叶子节点表示在一个属性上的分类检查,叶子节点表示决策判断的结果,该结果选择了正确分类较多实例的分类。
·决策树有很多算法(第2章)
Sore-throat
Yes-No-
Cooling-effectColde)=Viral
Unknown
NotgoodGood;
序号;
·决策树一般都可以被翻译为一个产生式规则集合。
·产生式规则的格式为:
-IF前提条件THEN结论
·图1.1翻译为4条产生式规则
(1)IFSore-throat=NoTHENCold-type=Viral
(2)IFSore-throat=YesCooling-effect=GoodTHENCold-type=Viral
(3)IFSore-throat=YesCooling-effect=NotgoodTHENCold-type=Bacterial
(4)IFSore-throat=YesCooling-effect=UnknownTHENCold-type=Bacterial;
·无指导(监督)聚类
一一种无指导(无教师)的学习;
·在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组——簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。;
给定如表1.1所示的数据集T,使用无指导聚类方法
,对所有实例进行分类,解释每个簇的含义。;
清华大学出版社
挖掘准备
·删除Cold-type(感冒类型)属性
·选择算法
-无指导聚类有很多种算法,
-K-means(K-均值)算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。
-K-means算法是一种最为常用和易用的算法。
·指定初始簇
-K-means(K-均值)算法在聚类前指定一个初始的簇的个数,本例指定为2
您可能关注的文档
最近下载
- 2024年河南建筑职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析.docx
- 采石场安全知识培训课件.pptx
- 2023年镇江市丹徒区人民医院护士招聘考试历年高频考点试题含答案解析.docx VIP
- 高中语文:阿Q正传——鲁迅课本剧.doc VIP
- 2024《物联网技术》ppt课件完整版 .pdf VIP
- 重型板式给料机论文.doc
- 小学英语教学论文浅谈思维.docx VIP
- 陕西省教育科学规划课题申请评审书.doc VIP
- 运输优化方案设计.docx VIP
- 外研版英语(三起点)六年级下册 Module2 大单元学历案教案 教学设计附作业设计(基于新课标教学评一体化).docx
文档评论(0)