002数据预处理.ppt

下载文档 降价啦

9
0
约4.53千字
约 43页
2017-05-21 发布于湖北
举报
版权申诉
保障服务

002数据预处理.ppt

1、本文档共43页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

002数据预处理

数据预处理数据预处理为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化为什么要预处理数据？现实世界的数据是“肮脏的”——数据多了，什么问题都会出现不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据含噪声的：包含错误或者“孤立点” 不一致的：在编码或者命名上存在差异没有高质量的数据，就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成数据质量的多维度量一个广为认可的多维度量观点：精确度完整度一致性可信度附加价值可访问性 …… 跟数据本身的含义相关的内在的、上下文的、表象的数据预处理的主要任务数据清理填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规格化和聚集数据归约得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果数据离散化数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要数据预处理为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化数据清理的原则尽可能赋予属性名和属性值明确的含义统一多数据源的属性值编码去除唯一属性(对挖掘）去除重复属性去除可忽略字段合理选择关联字段空缺值数据并不总是完整的例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入引起空缺值的原因因为误解而没有被输入的数据在输入时，有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载设备异常与其他已有数据不一致而被删除空缺值要经过推断而补上如何处理空缺值忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低使用一个全局变量填充空缺值：比如使用unknown或-∞ 使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样的基于推断的方法噪声数据噪声一个测量变量中的随机错误或偏差噪声平滑技术：分箱：例：原始数据为4，8，15，21，21，24，25，28，34 噪声数据处理-分箱噪声数据处理聚类：将类似的值组织成群或“聚类”，落在聚类集合外的点被视为孤立点计算机和人工检查结合：计算机根据信息度量理论等进行初次筛选，将筛选结果交由人来复查回归：通过让数据适合一个函数（如回归函数）来平滑数据聚类通过聚类分析查找孤立点，消除噪声回归数据预处理为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化数据集成数据集成：将多个数据源中的数据整合到一个一致的存储中模式集成：实体识别问题：匹配来自不同数据源的现实世界的实体，比如：A.cust_id=B.customer_id 方法：整合不同数据源中的元数据检测并解决数据值的冲突对现实世界中的同一实体，来自不同数据源的属性值可能是不同的可能的原因：不同的数据表示，不同的度量(元/千元,布尔类型/字符类型）等等处理数据集成中的冗余数据集成多个数据库时，经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个表导出，如“年薪” 有些冗余可以被相关分析检测到仔细将多个数据源中的数据集成起来，能够减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。例子数据预处理为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化数据变换数据变换将数据转换成适合挖掘的形式。平滑：如采用分箱和聚类方法时，实际上是把一个区域内的值用同一个数值表示，在一定的误差允许的条件下减少了属性取值个数，进而减少挖掘算法的工作量。聚集：对数据进行汇总和聚集。例如可以聚集日销售数据，计算年销售额。通常这一步用来为多粒度数据分析构造数据立方体。数据变换（续）规格化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0到1.0或0.0到1.0 数据变换——规格化最小－最大规格化 z-score规格化小数定标规格化数据变换——规格化（续）最小----最大规格化例：客户背景数据表中客户月收入imcome属性的实际值范围为[430，8000]，要把这个属性值规范到[0，1]，对属性值3200应用上述公式：数据变换——规格化（续）小数定标规格化例:样本数据值得范围为800~5000，最大绝对值为5