网站大量收购闲置独家精品文档,联系QQ:2885784924

数据仓库与数据挖掘原理及应用(第二版) 作者 王丽珍 周丽华 陈红梅 第5章.ppt

数据仓库与数据挖掘原理及应用(第二版) 作者 王丽珍 周丽华 陈红梅 第5章.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二篇 数据挖掘与空间数据挖掘 第五章 数据挖掘概念与数据预处理 第五章 目录 5.1 数据挖掘概述 5.2 数据挖掘分类 5.3 数据挖掘系统 5.4 数据预处理 5.5 数据挖掘与数据仓库 5.6 数据挖掘的应用和发展 5.7 本章小结 引例 美国加州某个超级连锁店通过数据挖掘,从记录着每天销售和顾客基本情况的数据库中发现,在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。于是这个连锁店的经理当机立断重新布置了货架,把啤酒类商品布置在婴儿尿布货架附近,并在两者之间放上土豆片之类的佐酒小食品,同时把男士们需要的日常生活用品也就近布置。这样一来,上述几种商品的销量几乎马上成倍增长。 5.1 数据挖掘概述(1) 数据库中的知识发现(Knowledge Discovery in Database,简称KDD)是一个从数据库中挖掘有效的、新颖的、潜在有用的和最终可理解的模式的复杂过程。 1)数据是一组事实的集合,它可以来自不同的数据源,可以是规则数据,也可以是非规则数据。 2)模式是关于数据子集的某种语言描述的表达式或某种可应用的模型,又称为知识。 3)模式必须是有效的、新颖的、潜在有用的和最终可理解的,分别用可信度、新颖度、可用度和简单度对其进行评价。 4)KDD过程是一个复杂过程,其步骤如图5.1所示。 5.1 数据挖掘概述(2) 图5.1 KDD步骤 KDD步骤 ① 研究问题域。包括掌握应预先了解的有关知识和确定数据挖掘任务; ② 选择目标数据集。根据上一步骤的要求选择要进行挖掘的数据; ③ 数据预处理。将上一步骤的数据进行集成、清理、变换等,使数据转换为可以直接应用数据挖掘工具进行挖掘的高质量数据; ④ 数据挖掘。根据数据挖掘任务和数据性质选择合适的数据挖掘工具挖掘模式; ⑤ 模式解释与评价。去除无用的或冗余的模式,将有趣的模式以用户能理解的方式表示,并储存或提交给用户; ⑥ 应用。用上述步骤得到的有趣模式(或知识)指导人的行为。 数据挖掘(Data Mining,简称DM)是KDD过程中对数据真正应用算法抽取知识的那一步骤,是KDD过程中的重要环节。人们往往不加区分地使用KDD和DM,本书也不明确区分两者。 5.2 数据挖掘分类 5.2.1概述 1. 根据挖掘的数据源类型分类 2. 根据采用的挖掘技术分类 3. 根据发现的知识类型分类 5.2.2描述性挖掘 1. 特征与比较描述 2. 关联分析 3. 聚类分析 4. 异常检测 5.2.3预测性挖掘 1. 数据分类 2. 数值预测 5.3 数据挖掘系统 5.3.1 数据挖掘系统的结构 图5.2 数据挖掘系统的典型结构 5.3.2 数据挖掘系统的设计 在数据挖掘系统的设计中,需要考虑如下问题。 1. 数据挖掘系统怎样与数据源集成 2. 数据挖掘系统怎样指定目标数据集 3. 数据挖掘系统怎样指定数据挖掘任务 4. 数据挖掘系统怎样解释与评价模式 5. 数据挖掘系统怎样利用领域知识 6. 数据挖掘系统怎样提交知识 5.4 数据预处理 5.4.1 数据清理(1) 1. 消除不完整 1)使用一个全局常量填充:例如,某顾客表中的年龄属性,使用“unknown”填充。 2)使用属性平均值填充:例如,某顾客表中的薪水属性,使用薪水属性平均值填充。 3)使用相同类的属性平均值填充:例如,在分类规则挖掘中,可以使用与给定样本属于相同类的其他样本的属性平均值填充。 4)使用最可能的值填充:例如,将某顾客表中的薪水属性作为预测属性,采用预测算法,预测给定样本的薪水属性最可能的值并填充。 5.4.1 数据清理(2) 2. 消除噪声 1)通过平滑数据消除噪声:例如,分箱技术,它将数据排序,根据分布规则将数据分布到不同箱中,根据平滑规则将同一箱中的数据用相应数据替换。分布规则可以是等深、等宽。等深是指每个箱中的数据个数相等;等宽是指每个箱的取值区间大小相等。平滑规则可以是平均值平滑、中值平滑、边界平滑。平均值平滑是指将同一箱中的数据全部用该箱中数据的平均值替换;中值平滑是指将同一箱中的数据全部用该箱中数据的中值替换;边界平滑是指将同一箱中的数据分别用该箱中最近的边界值替换。 2)通过识别孤立点消除噪声:例如,采用聚类算法得到类(或簇),在类之外的数据可以视为孤立点(或噪声)并消除。 3. 消除不一致 5.4.1 数据清理(3) 例5.1 假设某属性的值为18,12,3,9,7,6,15,21,16,采用分箱技术平滑数据消除噪声。分布规则为等深、深度为3,平滑规则为平均值平滑。 首先,将属性的值排序为3, 6, 7, 9, 12, 15, 16, 18, 21 然后,根据分布规则(等深、深度为3)将数据分布到 箱1:3,

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档