数据预处理专业知识讲座.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
为什么要预处理数据? ■现实世界的数据是“肮脏的”——数据多了, 什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包 含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据合库需要对高质贔的数据进行一致地集成, 数据质量的多维度量 广为认可的多维度量观点: 精确度 完整度 致性 合乎时机 可信度 附加价值 可访问性 跟数据本身的含义相关的 肉在的,6上下文的素象的 数据预处理的主要任务 ■数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 致性 数据集成 集成多个数据库、数据立方体或文件 ■数据变换 ■规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近 的结果 ■数据离散化 热操周婴型要特甥量盛字层和数据的离散化米规约数 数据预处理的形式 do I.leonlsokinw alal 数据清理 I show sop sds o dalel 数据集成 数据变换 ,m,100,GD,4 9口.0.m,1.0.D.59.O.4 数据归约 I1+ L200 数据清理 916 数据预处理专业知识讲座 空缺值 双据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相 应值,比如销售表中的顾客收入 ■引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 对数据的改变没有进行日志记载 空缺猿要经过推断面补 如何处理空缺值 ■忽略元组:当类标号缺少时通常这么做(假定挖掘任务 涉及分类或描述),当每个属性缺少值的百分比变化很 大时,它的效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用 unknow或-∞ 使用属性的平均值填充空缺值 ■使用与给定元组属同一类的所有样本的平均值 n使用最可能的值填充空缺值:使用像 Bayesian公式或判 定树这样的基于推断的方法 916 数据预处理专业知识讲座 噪声数据 ■噪声:一个测量变量中的随机错误或偏差 引起噪声数据的原因 ■数据收集工具的问题 ■数据输入错误 数据传输错误 技术限制 命名规则的不一致 916 数据预处理专业知识讲座 数据平滑的分箱方法 prce的排序后数据(单位:美元):4,8,15,21,21,24, 25,28,34 划分为(等深的)箱 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 用箱平均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 ■用箱边界平滑 箱1:4,4,15 箱2:21,21,24 箱325,25,34 数据预处理专业知识讲座

文档评论(0)

3471161553 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档