网站大量收购独家精品文档,联系QQ:2885784924

《数据挖掘导论》教材配套教学——第1章认识数据挖掘.pptx

《数据挖掘导论》教材配套教学——第1章认识数据挖掘.pptx

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘定义

机器学习

数据查询

专家系统

数据挖掘过程/作用/技术/应用

Weka数据挖掘软件;

清华大学出版社

本章目标

·掌握数据挖掘的定义

·了解机器学习中的基本方法

-概念学习

-归纳学习

-有指导的学习

-无指导的聚类

·了解与数据挖掘有关的数据查询、专家系统

·了解数据挖掘的过程、作用、技术、应用

·掌握Weka数据挖掘软件的使用方法;

1.1数据挖掘定义;

·技术角度

-利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。

-目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。

-数据挖掘与计算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。

·学科角度

-数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。;

-商业智能信息处理技术;

-围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。;

1.2机器学习;

清华大学出版社

1.2.1概念学习

·通过对大量实例进行训练,从中发现经验化规律的过程。

·机器学习结果的通常表现形式为概念。

·机器最擅长的是学习概念。

·概念(Concept)

-具有某些共同特征的对象、符号或事件的集合。

·概念可以从三个不同的角度来看待;

1、传统角度(ClassicalView)

-所有概念都有明确的定义。

2、概率角度(ProbabilisticView)

-对个别样本实例进行概括性描述,概括性说明构成了概率角度中的概念。

3、样本角度(ExemplarView)

-样本角度中的概念是将某个概念中的典型实例组成一个集合,使用该集合来描述概念定义。;

·基于归纳的学习

-机器学习方式

-人类学习最重要方式之一

·人类通过对事物的特定实例的观察,对所掌握的已有经验材料研究。

·归纳学习

-从归纳中获取和探索新知识,并以概念的形式表现出来的学习。;

1.2.3有指导的学习(SupervisedLearning)

·定义

-通过对大量已知分类或输出结果值的实例进行训练,调整分类模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。

·数据实例(Instance)

-用于有指导学习的样本数据

·训练实例(TrainingInstance)

-用于训练的实例

·检验实例(TestInstance)

-分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。;

给定如表1.1所示的数据集T,使用有指导的学习方

法建立分类模型,对未知类别的实例进行分类。;

表1.1感冒诊断假想数据集;

清华大学出版社

决策树(DecisionTree)

·倒立树,非叶子节点表示在一个属性上的分类检查,叶子节点表示决策判断的结果,该结果选择了正确分类较多实例的分类。

·决策树有很多算法(第2章)

Sore-throat

Yes-No-

Cooling-effectColde)=Viral

Unknown

NotgoodGood;

序号;

·决策树一般都可以被翻译为一个产生式规则集合。

·产生式规则的格式为:

-IF前提条件THEN结论

·图1.1翻译为4条产生式规则

(1)IFSore-throat=NoTHENCold-type=Viral

(2)IFSore-throat=YesCooling-effect=GoodTHENCold-type=Viral

(3)IFSore-throat=YesCooling-effect=NotgoodTHENCold-type=Bacterial

(4)IFSore-throat=YesCooling-effect=UnknownTHENCold-type=Bacterial;

·无指导(监督)聚类

一一种无指导(无教师)的学习;

·在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组——簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。;

给定如表1.1所示的数据集T,使用无指导聚类方法

,对所有实例进行分类,解释每个簇的含义。;

清华大学出版社

挖掘准备

·删除Cold-type(感冒类型)属性

·选择算法

-无指导聚类有很多种算法,

-K-means(K-均值)算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。

-K-means算法是一种最为常用和易用的算法。

·指定初始簇

-K-means(K-均值)算法在聚类前指定一个初始的簇的个数,本例指定为2

文档评论(0)

阿弥陀佛 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档