13.预处理工业数据(数据集成).pptx

13.预处理工业数据(数据集成).pptx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

工业互联网数据分析技术蓝卓数字科技有限公司

项目二准备工业互联网数据本章概要:任务1接入工业数据任务2预处理工业数据知识课堂

任务2预处理工业数据大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或者异构的数据库、文件系统、服务接口等,容易受到噪声数据、数据值缺失、数据冲突等影响。因此,需要对先收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性、价值性。任务2-1任务描述本任务要求能够了解数据清洗能够了解数据集成;能够了解数据规约;能够了解数据转换通过知识课堂加深了解管理工业数据平台

任务2预处理工业数据任务2-2任务实施大数据预处理环节主要包括:数据清理数据集成数据转换数据归约该环节可以大大提高大数据的总体质量,是大数据过程质量的体现。

任务2预处理工业数据数据集成数据集成即将多个不同的数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。因为数据往往分布在不同的数据源中,来自多个数据源的现实世界实体的表达形式不一样,有可能不匹配,所以要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。

任务2预处理工业数据(1)实体识别问题实体识别是指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处,常见形式主要有:①同名异义:数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号,即描述的是不同的实体。②异名同义:数据源A中的sales_dt和数据源B中的sales_date都是描述销售日期的,即A.sales_dt=B.sales_date。③单位不统一:描述同一个实体分别用的是国际单位和中国传统的计量单位。检测和解决这些冲突就是实体识别的任务。

任务2预处理工业数据(2)冗余属性识别问题数据集成往往导致数据冗余,例如:同一属性多次出现;同一属性命名不一致导致重复。仔细整合不同源数据能减少甚至避免数据冗余与不一致,从而提高数据挖掘的速度和质量。对于冗余属性要先分析,检测到后再将其删除。有些冗余属性可以用相关分析检测:给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性。

感谢聆听,敬请指正

文档评论(0)

方世玉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档