必威体育精装版资料数据挖掘入门精简ppt模版课件.ppt

下载文档 降价啦

0
0
约8.19千字
约 65页
2018-06-23 发布于贵州
举报
版权申诉
保障服务

必威体育精装版资料数据挖掘入门精简ppt模版课件.ppt

1、本文档共65页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

必威体育精装版资料数据挖掘入门精简ppt模版课件

* * 数据挖掘过程可视化将数据挖掘各种处理过程用可视化的方式呈现给用户，可以看到：数据是如何被提取的是从哪个数据库或数据仓库提取的数据被选择数据如何被清理，整合，处理和挖掘的在数据挖掘中采用什么方法数据被存储在哪里 * * Visualization of Data Mining Processes by Clementine 可视化流程使得数据观察和交互的变得简单方便 * * 交互式可视化数据挖掘使用可视化工具在数据挖掘过程中帮助用户作出更加合理的挖掘决定更好的理解数据和样本用户可以根据理解作出决定用户可以根据领域知识作出决定可视化结果使用户能够指导下次算法执行 * * 谢谢！ * * * * 主要内容为什么需要数据预处理? 数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结 * * 数据归约的提出在数据仓库中可能保存TB级的数据，大数据量的数据挖掘，可能需要大量的时间来完成整个数据的数据挖掘。数据归约在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减数据归约的方法数据立方体聚集：聚集操作作用于立方体中的数据减少数据维度（维归约）：可以检测并删除不相关、弱相关或者冗余的属性或维数据压缩：使用编码机制压缩数据集数值压缩：用替代的、较小的数据表示替换或估计数据 * * Data Cube的聚集 “基点方体” “顶点方体” Data Cube中的多个层次的聚集进一步缩减所要处理的数据量当响应OLAP查询或者数据挖掘时，应当使用与给定任务相关的“最小方体” * * 维归约(特征提取) 维归约：通过删除不相关的属性（或维）减少数据量特征选取 (属性子集的选取): 选取最小的特征属性集合，得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致特征提取，对于d 个属性来说，具有2d 个可能的子集 * * 维归约的主要方法利用启发式的方法来减少数据维度(随着维度的增长数据量将呈指数级别增长): 逐步向前选择：维数逐步增多的方法（每次增添“最好”的属性）逐步向后选择：维数逐步减少的方法（每次删除“最差”的属性）两者组合的方法判定树归纳方法（ID3, C4.5） * * 基于判定树归纳的方法 Initial attribute set: { A1, A2, A3, A4, A5, A6 } A4 ? A1? A6? Class 1 Class 2 Class 1 Class 2 Reduced attribute set: {A1, A4, A6} Y Y Y N N N * * 数据压缩数据压缩：应用数据编码或变换，以便得到数据的归约或压缩表示无损压缩：原数据可以由压缩数据重新构造而不丢失任何信息字符串压缩是典型的无损压缩现在已经有许多很好的方法但是它们只允许有限的数据操作有损压缩：只能重新构造原数据的近似表示影像文件的压缩是典型的有损压缩典型的方法：小波变换、主要成分分析 * * 数值归约数值归约：通过选择替代的、“较小”的数据表示形式来减少数据量有参的方法假设数据符合某些模型，通过评估模型参数，仅需要存储参数，不需要存储实际数据（孤立点也可能被存放）典型方法：对数线性模型，它估计离散的多维概率分布无参的方法不存在假想的模型典型方法:直方图、聚类和抽样 * * 直方图类似于分箱技术，是一种流行的数据归约方式将属性值划分为不相交的子集，或“桶” 桶安放在水平轴上，而桶的高度（和面积）是该桶所代表的值的平均频率。每个桶只表示单个属性值，则称其为“单桶”。通常，“桶”表示给定属性的一个连续空间可以通过编程，动态修改部分参数，进行合理构造。 count 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 1-10 11-20 21-30 5 10 15 20 25 13 25 15 Price Price count * * 主要内容为什么需要数据预处理? 数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结 * * 数据离散化和概念层次属性值分类枚举型有序的无序的连续型：如 Real类型数据离散化对于一个特定的连续属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数。概念层次利用高层的概念（如儿童、青年、中年、老年等）来代替低层的实际数据值（实际年龄），以减少属性值的个数。 * * 数值数