必威体育精装版资料数据挖掘入门精简ppt模版课件.ppt

必威体育精装版资料数据挖掘入门精简ppt模版课件.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
必威体育精装版资料数据挖掘入门精简ppt模版课件

* * 数据挖掘过程可视化 将数据挖掘各种处理过程用可视化的方式呈现给用户,可以看到: 数据是如何被提取的 是从哪个数据库或数据仓库提取的数据 被选择数据如何被清理,整合,处理和挖掘的 在数据挖掘中采用什么方法 数据被存储在哪里 * * Visualization of Data Mining Processes by Clementine 可视化流程使得数据观察和交互的变得简单方便 * * 交互式可视化数据挖掘 使用可视化工具在数据挖掘过程中帮助用户作出更加合理的挖掘决定 更好的理解数据和样本 用户可以根据理解作出决定 用户可以根据领域知识作出决定 可视化结果使用户能够指导下次算法执行 * * 谢谢! * * * * 主要内容 为什么需要数据预处理? 数据清洗 数据集成与转换 数据归约 数据离散化与概念层次的构建 本章小结 * * 数据归约的提出 在数据仓库中可能保存TB级的数据,大数据量的数据挖掘,可能需要大量的时间来完成整个数据的数据挖掘。 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减 数据归约的方法 数据立方体聚集:聚集操作作用于立方体中的数据 减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维 数据压缩:使用编码机制压缩数据集 数值压缩:用替代的、较小的数据表示替换或估计数据 * * Data Cube的聚集 “基点方体” “顶点方体” Data Cube中的多个层次的聚集 进一步缩减所要处理的数据量 当响应OLAP查询或者数据挖掘时,应当使用与给定任务相关的“最小方体” * * 维归约(特征提取) 维归约:通过删除不相关的属性(或维)减少数据量 特征选取 (属性子集的选取): 选取最小的特征属性集合,得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致 特征提取,对于d 个属性来说,具有2d 个可能的子集 * * 维归约的主要方法 利用启发式的方法来减少数据维度(随着维度的增长数据量将呈指数级别增长): 逐步向前选择:维数逐步增多的方法(每次增添“最好”的属性) 逐步向后选择:维数逐步减少的方法(每次删除“最差”的属性) 两者组合的方法 判定树归纳方法(ID3, C4.5) * * 基于判定树归纳的方法 Initial attribute set: { A1, A2, A3, A4, A5, A6 } A4 ? A1? A6? Class 1 Class 2 Class 1 Class 2 Reduced attribute set: {A1, A4, A6} Y Y Y N N N * * 数据压缩 数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示 无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息 字符串压缩是典型的无损压缩 现在已经有许多很好的方法但是它们只允许有限的数据操作 有损压缩:只能重新构造原数据的近似表示 影像文件的压缩是典型的有损压缩 典型的方法:小波变换、主要成分分析 * * 数值归约 数值归约:通过选择替代的、“较小”的数据表示形式来减少数据量 有参的方法 假设数据符合某些模型,通过评估模型参数,仅需要存储参数,不需要存储实际数据(孤立点也可能被存放) 典型方法:对数线性模型,它估计离散的多维概率分布 无参的方法 不存在假想的模型 典型方法:直方图、聚类和抽样 * * 直方图 类似于分箱技术,是一种流行的数据归约方式 将属性值划分为不相交的子集,或“桶” 桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。 每个桶只表示单个属性值,则称其为“单桶”。通常,“桶”表示给定属性的一个连续空间 可以通过编程,动态修改部分参数,进行合理构造。 count 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 1-10 11-20 21-30 5 10 15 20 25 13 25 15 Price Price count * * 主要内容 为什么需要数据预处理? 数据清洗 数据集成与转换 数据归约 数据离散化与概念层次的构建 本章小结 * * 数据离散化和概念层次 属性值分类 枚举型 有序的 无序的 连续型:如 Real类型 数据离散化 对于一个特定的连续属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。 概念层次 利用高层的概念(如儿童、青年、中年、老年等)来代替低层的实际数据值(实际年龄),以减少属性值的个数。 * * 数值数

文档评论(0)

sanshengyuan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档