网站大量收购独家精品文档,联系QQ:2885784924

重庆大学数据挖掘课件之数据预处理.pdf

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重庆大学数据挖掘课件之数据预处理

数据预处理技术 主讲教师:钟将 E-mail: zhongjiang@cqu.edu.cn 内容  数据预处理的意义  数据清理  数据集成和变换  数据规约  离散化和概念分成 预处理的意义- 为什么要预处理数据?  现实世界的数据是 “肮脏的”——数据多了, 什么问题都会出现  不完整的:有些感兴趣的属性缺少属性值,或仅包 含聚集数据  含噪声的:包含错误或者 “孤立点”  不一致的:在编码或者命名上存在差异  没有高质量的数据,就没有高质量的挖掘结果  高质量的决策必须依赖高质量的数据  数据仓库需要对高质量的数据进行一致地集成 数据质量  数据质量的维度  精确度  完整度  一致性  合乎时机 (实时性)  可信度  附加价值  可访问性  跟数据本身的含义相关的  内在的、上下文的、表象的 数据预处理的主要任务  数据清理  填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性  数据集成  集成多个数据 、数据立方体或文件  数据变换  规范化和聚集  数据归约  得到数据集的压缩表示,它小得多,但可以得到相同或相近 的结果  数据离散化  数据归约的一部分,通过概念分层和数据的离散化来规约数 据,对数字型数据特别重要 1 数据清理  空值处理  噪声数据  不一致的数据 1.1 空缺值  数据并不总是完整的  例如:数据库表中,很多条记录的对应字段没有相 应值,比如销售表中的顾客收入  引起空缺值的原因  设备异常  与其他已有数据不一致而被删除  因为误解而没有被输入的数据  在输入时,有些数据应为得不到重视而没有被输入  对数据的改变没有进行日志记载  空缺值要经过推断而补上 1.1 处理空缺值 ① 忽略元组:当类标号缺少时通常这么做 (假定挖掘 任务涉及分类或描述),当每个属性缺少值的百分 比变化很大时,它的效果非常差。 ② 人工填写空缺值:工作量大,可行性低 ③ 使用一个全局变量填充空缺值:比如使用unknown 或-∞ ④ 使用属性的平均值填充空缺值 ⑤ 使用与给定元组属同一类的所有样本的平均值 ⑥ 使用最可能的值填充空缺值:使用像Bayesian公式 或判定树这样的基于推断的方法 1.2 噪声数据  噪声:一个测量变量中的随机错误或偏差  引起噪声数据的原因  数据收集工具的问题  数据输入错误  数据传输错误  技术限制  命名规则的不一致 1.2 处理噪声数据  分箱(binning):  首先排序数据,并将他们分到等深的箱中  然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平 滑等等  聚类:  监测并且去除孤立点  计算机和人工检查结合  计算机检测可疑数据,然后对它们进行人工判断  回归  通过让数据适应回归函数来平滑数据 1.2.1 数据平滑的分箱方法  price的排序后数据 (单位:美元):4 ,8,15,2 ,2 ,24,25, 28,34  划分为 (等深的)箱:  箱 :4 ,8,15  箱2 :2 ,2 ,24  箱3:25,28,34  用箱平均值平滑:  箱 :9,9,9  箱2 :22,22,22  箱3:29,29,29  用箱边界平滑:  箱 :4 ,4 ,15  箱2 :2 ,2 ,24  箱3:25,25,34 1.2.2 聚类  通过聚类分析查找孤立点,消除噪声 1.2.3 回

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档