四、数据清洗与预处理.pptx

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三、数据清洗和数据预处理 ;2016/11/2;2016/11/2;2016/11/2;5;6;2016/11/2;数据选取参考原则: 1.尽可能赋予属性名和属性值明确的含义 2.统一多数据源的属性值编码 3.去除惟一属性 4.去除重复属性 5.去除可忽略字段 6.合理选择关联字段 进一步处理: 通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据 ;9;10;11;12;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;熵——信息的度量(利用概率来度量);熵——信息的度量;噪声数据的处理——分箱;噪声数据的处理——平滑处理;噪声数据的处理——聚类;噪声数据的处理——聚类;噪声数据的处理——回归;噪声数据的处理——回归;三、数据集成;数据集成的内容 模式集成 利用数据库和数据仓库的元数据信息 主要工作是识别现实世界中的实体定义 冗余数据的处理 检测和解决数值冲突 对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 主要原因:不同的数据表示、度量单位、编码方式以及语义的不同;模式集成:整合不同数据源中的元数据。;28;29;数据转换:数据概化;31;数据转换:规范化(续);33;四、数据归约;下图所示数据立方体用于某销售企业每类商品在各分公司年销售多维数据分析。每个单元存放一个聚集值,对应于多维空间的一个数据点。每个属性可能存在概念分层,允许在多个抽象层进行数据分析。 ;数据归约——维归约;维归约——选择相关属性子集;维归约——选择相关属性子集;数据归约——数据压缩;数据归约——数据压缩;数据归约——数值归约;利用分箱方法对数据分布情况进行近似;数值归约——用聚类数据表示实际数据;优点:获取样本的时间仅与样本规模成正比 方法: 不放回简单随机抽样 放回简单随机抽样 聚类抽样:先聚类,再抽样 分层抽样:先分层,再抽样 ;不放回简单随机抽样;数值归约——参数回归法 ; 数据归约——离散化与概念分层生成;概念分层 概念分层定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从???在多个抽象层上发现知识。用较高层次的概念替换低层次(如年龄的数值)的概念,以此来减少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。 概念分层结构可以用树来表示,树的每个节点代表一个概念。; 数据归约——概念分层生成;数值数据的概念分层生成方法;按照自然分类进行数据分割;3-4-5 法则举例;分类(类别)数据的概念分层生成方法;分类(类别)数据的概念分层生成方法

文档评论(0)

松鼠知识分享 + 关注
实名认证
内容提供者

松鼠知识分享

1亿VIP精品文档

相关文档