- 1、本文档共88页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2011第1次课数据挖掘及其算法概览new整理ppt
第1章 数据挖掘及其算法概览 数据挖掘算法概览 结构类型:模型和模式 一般可以从很多角度来对数据挖掘所探寻的不同表示 进行分类。一种方法是分析全局模型( Model)和局部模 式(Pattern、Schema)的差异。 模型结构定义为对数据集的全局性总结。它是对整个 测量空间的每一个点作出描述。从几何角度考虑,数据矩 阵中的行可以看作是p维向量中的点。模型是对该空间中 的每一个点作出描述。如可以把一个点分配到一个聚类或 者预测出某个其它变量的值。 简单的模型如Y=aX + b,其中X、Y是变量,a、b是模 型的参数,也就是要在数据挖掘过程中确定的值。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 知识发现的过程-数据挖掘 数据挖掘:确定目标和任务。如数据总结、分类、聚类、关联规则 发现或者序列模式发现等。确定任务后,考虑采用何种算法。同样 的任务可以采用不同的算法来实现。选择算法的考虑因素包括:不 同的数据有不同的特点,因此需要采用与之相关的算法来处理;用 户或实际运行系统的要求,有的用户可能希望获得描述性、易于理 解的描述性知识,有的用户可能希望获得预测准确度高的预测型知 识。 数据挖掘仅仅是整个过程的一个部分,数据挖掘质量的好坏有两个 影响因素。采用的数据挖掘技术的有效性;用于挖掘数据的质量和 数量。数据挖掘过程是一个非平凡的过程,需要不断反馈。可视化 在数据挖掘中扮演重要的角色。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 知识发现的过程-结果表达于解释 结果解释和评价:数据挖掘阶段发现的模式,经过用户或机器的 评价,可能存在冗余或无关的模式,需要将其剔除。模式也可能 不满足用户的要求,需要重新进行KDD过程。 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 KDD知识发现抽取知识的类型和表示 依赖关系; 分类知识; 描述性知识; 偏差性知识 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 1 依赖关系 若其中一项的数据可以预测另一项的数据,即A--〉B,则 称这两项存在依赖关系。当确定依赖关系不存在时,可以附加 不确定度量: A--〉(0.95)B。这类知识可用于数据库知识的 归一化、查询优化,还可用于最小化决策树、有哪些信誉好的足球投注网站数据特例等 2 分类知识 数据子类的标识知识。子类可由某一现有属性确定,也可由 附加的知识领域知识来定义,KDD系统基于分类知识的发现任务 促进了交互式新型聚类算法的发展,即处理器计算机能力和用户 知识及可视化工具的有机集成。 KDD知识发现抽取知识的类型和表示 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 3 描述性知识 关于类别特征的概括性知识。主要包括两类知识:特征描述 知识和区分性知识。特征描述性知识是指本类数据所共有的;区 分性知识是指本类区别于其他类的特征 4 偏差性知识 关于类别差异的描述。包括:标准类的特例,各类边缘外的 孤立点,时序关系上的单属性值和集合取值的不同,实际观测值 与系统预测值间的显著差别等。 KDD知识发现抽取知识的类型和表示 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 KDD的主要任务 KDD的核心部分是数据模式的抽取,即通过数据挖 掘完成各种模式的抽取。其主要的任务是: 分类知识发现、数据总结、数据聚类、 关联规则发现、序列模式发现、 依赖关系模型发现、异常发现和趋势预测等 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 1 分类知识发现 根据样本数据寻找相应的分类规则。然后根据获得的规则来 确定某一非样本个体或对象是否属于某一特定的组或者类。在这 种分类知识发现中,样本数据中的个体或对象的类标识是已知的。 数据挖掘的任务就是从样本数据的属性中发现个体或对象分类的 一般规则,从而依据该规则对非样本数据对象进行分类有用。这 种分类规则一般表示为某种分类函数或者分类模型,简称分类器。 KDD的主要任务 第1章 数据挖掘及其算法概览 数据库知识发现基本概念 2 聚类知识发现 数据聚类用于发现在数据库中未知的数据类。这种数据类划分的依据 是“物以类聚”,即按照个体或数据对象间的相似性,将研究对象划分为若 干类。由于数据挖掘之前,数据类划分的数量和类型均是未知的,因此数 据挖掘后需要对数据挖掘结果进行合理分析与解释。 与分类知识发现不同的是,聚类任务没有已知的数据输入。即对于所 有元组(v1, v2, …….,vn, C),给定属性vi,其类别C均是未知的。 在机器学习中,聚类
文档评论(0)