- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 陈靖宇 广东工业大学 2007 第三章 数据预处理 简介 数据预处理的主要工作 空缺填补法 噪声去除法 数据规范化 数据形式转换* 数据型态转换* 数据模糊化** 总结 为什么要预处理数据? 现实世界的数据是“肮脏的”——数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成 目的: 提高数据挖掘的质量(精度),降低实际挖掘所需要的时间. 即: 效果+效率(性能) 第三章 数据预处理 简介 数据预处理的主要工作 空缺填补法 噪声去除法 数据规范化 数据形式转换* 数据型态转换* 数据模糊化** 总结 数据预处理的主要工作 数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据变换 规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要 预处理的主要工作 数据预处理的形式 数据集成 数据集成 (data integration) 解决多重数据来源的整合问题 主要工作 消除数据不一致 数值不一致 (data value conflict) 纲目不一致 (schema conflict) 消除数据重复性 数值重复 纲目重复 数据清理 (1) 确认数据正确性、完整性 常见的数据正确性问题 数据清理 (2) 确认数据完整性 常见的数据完整性问题: 数据清理 (3) 其它清理工作 空缺填补:人工填补或自动填补 噪声消除:噪声使挖掘结果有相当大的偏差,必须将噪声移除或将数据做平缓化处理(smoothing) 数据变换 平滑 去除数据种的噪声,包括分箱、聚类和回归 数据聚集 加总、统计或是建立数据方块(data cube) 将数据做初步整理,使得数据更适合挖掘 数据概化 数据的概念分层向上提升 会员地址用城市或是东南西北四区取代 数据精简的方法之一 规范化 属性构造 利用旧属性将挖掘所需的新属性建立 第三章 数据预处理 简介 数据预处理的主要工作 空缺填补法 噪声去除法 数据规范化 数据形式转换* 数据型态转换* 数据模糊化** 总结 数据空缺原因 数据建立时未输入 故意或是不小心造成数据没有被输入 设备故障 例如收款机故障,导致顾客消费明细无法输入 因数据内容不一致而被删除 当数据内容不一致时,为了避免错误的数据影响分析的准确性,可能会将该项数据以空值取代,因此产生数据的空缺 数据空缺处理方法-直接忽略法 处理数据空缺最简单的方法 适用时机 进行分类挖掘时,若数据的分类标记 (class label)为空值,这笔数据因无法被正确分类,便可直接删除 适用对象 搜集数据量很多、空缺数据只占一小部分 缺点 数据空缺比例很可观时,会造成大量数据流失 数据空缺处理方法-人工填补法 处理数据空缺的现象,可采用人工来填补 范例 当某会员数据的生日属性有空缺,可打电话询问该会员,以取得其生日并加以填补。 缺点 当数据空缺较多时,耗时且人力负担沉重。 数据空缺处理方法-自动填补法 主要两种方式 填入一个通用的常数值 如填入 “未知/unknown” ,成为一个新的类别 填入该属性的整体平均值 不会对统计结果造成太大的影响 不影响统计结果的情况下,保留此数据属性 缺点是不够客观 更精确作法是用推论法求出较可能的值来填入 方法基本上有两种,一种是贝式方程式 (Bayesian formula),另一种方法是利用决策树 (decision tree) 第三章 数据预处理 简介 数据预处理的主要工作 空缺填补法 噪声去除法 数据规范化 数据形式转换* 数据型态转换* 数据模糊化** 总结 噪声的处理方法 结合计算机和人工检视 结合计算机侦测与人工检视 聚类 孤立点可以被聚类检测出来 数据平滑处理 回归分析法 (regression analysis) 将数据套入回归函数以消除噪声 分箱法 (binning method) 将数据排序并切割成数个箱子 用平均值、中位数或边界值来取代箱子中的每一笔 数据以消除噪声 如何处理噪声数据 计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断 聚类: 监测并且去除孤立点 分箱(binning): 首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等 回归 通过让数据适应回归函数来平滑数据 聚类 通过聚类分析查找孤立点,消除噪声 回归 通过让
您可能关注的文档
- 5s管理培训-怎样把公司车间现场搞好.ppt
- 5第五章国际货物运输保险_国际经济法王传丽版.ppt
- 5多元线性回归中的假设检验和预测.doc
- 5种以TNFα为靶位的治疗性单克隆抗体制品及其类似物的TNFα杀伤抑制活性的比较_617.doc
- 06网络广告创意.ppt
- 6.“十二五”校园基本建设规划.doc
- 6.1_旋转钻井设备(转盘).ppt
- 6bb43-75kgm热轧钢轨订货技术要求.doc
- 6kk雅运皂洗剂去浮色及防沾色能力比较.doc
- 6S管理工作推进管理试行办法.doc
- DeepSeek培训课件入门宝典:第2册 开发实战篇 .pptx
- 全面认识全过程人民民主-2024春形势与政策课件.pptx
- 2024春形势与政策-全面认识全过程人民民主.pptx
- 2025年春季学期形势与政策第二讲-中国经济行稳致远讲稿.docx
- 2024春形势与政策-铸牢中华民族共同体意识课件.pdf
- 2024春形势与政策-走好新时代科技自立自强之路课件 (2).pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pptx
- 形势与政策学习指导教学-整套课件.pdf
- 2023年春季形势与政策讲稿第三讲-开创高质量发展新局面.pdf
- DeepSeek培训课件-清华大学-DeepSeek模型本地部署与应用构建.pptx
文档评论(0)