数据挖掘算法的基础PPT适合入门.pptxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘算法WangYe2006.8

一、概念和术语数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。数据挖掘,又称为数据库中知识发现(KnowledgeDiscoveryinDatabases)或知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系。广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法,即偏重于模型和算法。数据库查询系统和专家系统不是数据挖掘!在小规模数据上的统计分析和机器学习过程也不应算作数据挖掘。1.1数据挖掘/知识发现

1.2机器学习对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么这个计算机程序被称为在从经验E学习。机器学习是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。

1.3数据挖掘的对象关系型数据库、事务型数据库、面向对象的数据库;1数据仓库/多维数据库;2空间数据(如地图信息)3工程数据(如建筑、集成电路的信息)4文本和多媒体数据(如文本、图象、音频、视频数据)5时间相关的数据(如历史数据或股票交换数据)6万维网(如半结构化的HTML,结构化的XML以及其他网络信息)7

1.4数据挖掘的步骤数据清理(消除噪音或不一致数据,补缺);01数据集成(多种数据源可以组合在一起);02数据选择(从数据库中提取相关的数据);03数据变换(变换成适合挖掘的形式);04数据挖掘(使用智能方法提取数据模式);05模式评估(识别提供知识的真正有趣模式);06知识表示(可视化和知识表示技术)。07

1.5支持数据挖掘的关键技术数据库/数据仓库/OLAP数学/统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集)机器学习(聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法)可视化:将数据、知识和规则转化为图形表现的形式。

1.6数据仓库#2022

1.7数据仓库的模型星形模式:最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表);一组小的附属表(维表),每维一个。雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。星系模式:多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。

1.8典型的OLAP操作切片和切块:切片操作在给定的数据方的选择一个维的部分属性,获得一个较小的子数据方。切块操作通过对选择两个或多个维的部分属性,获得一个较小的子数据方。OLAP是一种多维数据分析技术。包括汇总、合并和聚集等功能,以及从不同的角度观察信息的能力。下钻:下钻是上卷的逆操作。它从某一维度的更低概念层次观察数据方,获得更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。上卷:从某一维度的更高概念层次观察数据方,获得更概要的数据。它通过沿维的概念分层向上或维归约来实现。转轴:是一种改变数据方二维展现形式的操作。它将数据方的二维展现中的某些维度由行改为列,或由列改为行。

二、数据准备现实世界的数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪音的(包含错误,或存在偏离期望的异常值),不一致的(例如,用于商品分类的部门编码存在差异)。需要数据清理、数据集成、数据选择、数据变换等技术对数据进行处理。

维归约/特征提取决策树归约决策树归约构造一个类似于流程图的结构:其每个非叶子结点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个叶子结点表示一个决策类。在每个结点,算法选择“当前对分类最有帮助”的属性,出现在树中的属性形成归约后的属性子集。

2.1-2粗糙集归约粗糙集理论在数学意义上描述了知识的不确定性,它的特点是把用于分类的知识嵌入集合内,使分类与知识联系在一起。知识的粒度、不可分辨关系、上近似、下近似、边界等概念见下图。

2.1-2粗糙集归约(续)令Q代表属性的集合。q∈Q是一个属性,如果IND(Q?q)=IND(Q),则q在S中不是独立的;否则称q在S中是独立的。01若集合满足IND(R)=IND(Q)且R中的每一个属性都是独立的,则R被称为Q的一个“约简”,记作R=RED(Q)。02约简可以通过删除冗余的(不独立的)属性而获得,约简包含的属性即为“对分类有帮助”的属性。03

数据变换归一化与模糊化有限区间的归一化:无限区间的归一化:模糊隶属度:

2.2-2核函数核函数的基本思想是将在低维特征向量线性不可分的数据映射到线性可分的高维特征空间中去。0

文档评论(0)

135****6917 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档