- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
为什么要预处理数据?
■现实世界的数据是“肮脏的”——数据多了,
什么问题都会出现
不完整的:有些感兴趣的属性缺少属性值,或仅包
含聚集数据
含噪声的:包含错误或者“孤立点”
不一致的:在编码或者命名上存在差异
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
数据合库需要对高质贔的数据进行一致地集成,
数据质量的多维度量
广为认可的多维度量观点:
精确度
完整度
致性
合乎时机
可信度
附加价值
可访问性
跟数据本身的含义相关的
肉在的,6上下文的素象的
数据预处理的主要任务
■数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不
致性
数据集成
集成多个数据库、数据立方体或文件
■数据变换
■规范化和聚集
数据归约
得到数据集的压缩表示,它小得多,但可以得到相同或相近
的结果
■数据离散化
热操周婴型要特甥量盛字层和数据的离散化米规约数
数据预处理的形式
do
I.leonlsokinw alal
数据清理
I show sop sds o dalel
数据集成
数据变换
,m,100,GD,4
9口.0.m,1.0.D.59.O.4
数据归约
I1+
L200
数据清理
916
数据预处理专业知识讲座
空缺值
双据并不总是完整的
例如:数据库表中,很多条记录的对应字段没有相
应值,比如销售表中的顾客收入
■引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据应为得不到重视而没有被输入
对数据的改变没有进行日志记载
空缺猿要经过推断面补
如何处理空缺值
■忽略元组:当类标号缺少时通常这么做(假定挖掘任务
涉及分类或描述),当每个属性缺少值的百分比变化很
大时,它的效果非常差。
人工填写空缺值:工作量大,可行性低
使用一个全局变量填充空缺值:比如使用 unknow或-∞
使用属性的平均值填充空缺值
■使用与给定元组属同一类的所有样本的平均值
n使用最可能的值填充空缺值:使用像 Bayesian公式或判
定树这样的基于推断的方法
916
数据预处理专业知识讲座
噪声数据
■噪声:一个测量变量中的随机错误或偏差
引起噪声数据的原因
■数据收集工具的问题
■数据输入错误
数据传输错误
技术限制
命名规则的不一致
916
数据预处理专业知识讲座
数据平滑的分箱方法
prce的排序后数据(单位:美元):4,8,15,21,21,24,
25,28,34
划分为(等深的)箱
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29
■用箱边界平滑
箱1:4,4,15
箱2:21,21,24
箱325,25,34
数据预处理专业知识讲座
文档评论(0)