网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘 第3章--数据预处理.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与商务智能范勤勤物流研究中心第三章 数据预处理1数据预处理2数据清理354数据集成数据变换与数据离散化数据归约 数据预处理 数据质量:为什么要预处理数据?现实世界的数据是“肮脏的”——数据多了,什么 问题都会出现不完整的:缺少属性值,缺少感兴趣的属性,或仅包含聚集数据。 e.g., Occupation=“” 含噪声的:包含错误或者“孤立点”。 e.g., Salary=“-10”不一致的:在编码或者命名上存在差异。E.g. Age=“42” Birthday=“03/07/1997”等级代码 前面“1,2,3”, 后面“A, B, C”没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成 Why Is Data Dirty?不完整数据来自:感兴趣的数据难以获得数据收集时与做数据分析时侧重的问题不一致人/硬件/软件问题噪音数据来自数据处理过程:收集录入传输不一致数据来自:不同数据源数据违背了函数依赖关系数据预处理的主要任务 数据清理数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果,包括维规约和数值规约填写空缺的值,平滑噪声数据,识别、删除孤立点,解决数据不一致性数据集成数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要集成多个数据库、数据立方体或文件数据变换规范化和聚集 数据清理数据清理数据清理任务填充缺失值识别孤立点,去除噪音修正不一致数据解决由于数据集成造成的数据冗余问题缺失数据数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上如何处理空缺值忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的效果非常差。采用忽略元组,不能使用该元组的剩余属性。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-∞,但缺失值都用unknown替换,挖掘程序可能误以为它们形成了一个有趣的概念,因此,并不是很可靠。使用属性的中心度量填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法噪声数据噪声一个测量变量中的随机误差或方差引起噪声数据的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致如何处理噪声数据分箱(binning)首先排序数据,并将他们分到等深(等宽)的箱中然后按箱平均值平滑(箱中每一个值被箱中的平均值替换)、或按箱中位值平滑(箱中每一个值被箱中的中位值替换)、或按箱边界平滑(箱中最大和最小值是边界。箱中每一个值被最近的边界值替换).离群点分析检测并去除孤立点回归计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断通过让数据适应回归函数来平滑数据数据平滑的分箱方法price的排序后数据(单位:美元)4,8,15,21,21,24,25,28,34划分为(等深的)箱 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34用箱边界平滑用箱平均值平滑箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34聚类通过聚类分析查找孤立点,消除噪声回归yY1线形回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。y = x + 1Y1’xX1 数据集成数据集成数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,这有助于提高其后挖掘过程的准确性和速度实体识别问题例如,数据分析者或计算机如何才能确信一个数据库中的customer_id 和另一个数据库中的cust_number 指的是同一属性检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等处理数据集成中的冗余数据集成多个数据库时,经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个属性导出,如“年薪”冗余数据可用相关分析方法检查标称数据,使用卡方检验数值属性,使用相关系数和协方差仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和精度相关分析标称数据的?2 相关检验其中, 是联合事件的观测频度(即实际计数),而 是期望频度,可用下式计算相关性分析—示例(1)假设调

文档评论(0)

yanpan1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档