网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘概念与技术原书第二版第二章数据预处理.pptVIP

数据挖掘概念与技术原书第二版第二章数据预处理.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与技术原书第二版第二章数据预处理

数据预处理;为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成;现实世界的数据是“脏的”——数据多了,什么问题都会出现 不完整 缺少数据值;缺乏某些重要属性;仅包含聚集数据; e.g., occupation= 有噪声 包含错误或者孤立点 e.g. Salary = -10 数据不一致 e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性;不完整数据的成因 数据收集的时候就缺乏合适的值 数据收集时和数据分析时的不同考虑因素 人为/硬件/软件 问题 噪声数据(不正确的值)的成因 数据收集工具的问题 数据输入时的 人为/计算机 错误 数据传输中产生的错误 数据不一致性的成因 不同的数据源 违反了函数依赖性;没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高???量的数据 e.g. 重复值或者空缺值将会产生不正确的或者令人误导的统计 数据仓库需要对高质量的数据进行一致地集成 数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤;一个广为认可的多维度量观点: 精确度 完整度 一致性 合乎时机 可信度 附加价值 可解释性 跟数据本身的含义相关的 内在的、上下文的、表象的以及可访问性;数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据变换 规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要;;为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成;动机:为了更好的理解数据 获得数据的总体印像 识别数据的典型特征 凸显噪声或离群点 度量数据的中心趋势 均值、中位数、众数(模)、中列数 度量数据的离散程度 四分位数、四分位数极差、方差等 ;度量可以分为三类: 分布式度量(distributive measure):将数据集划分为较小的子集,计算每个子集的度量,然后合并计算结果,得到原数据集的度量值。 比如:count(),sum(),min(),max()等 代数度量(algebraic):可以通过应用一个代数函数于一个或多个分布式度量计算的度量。 比如:平均值函数avg() ( avg() =sum()/count()) 整体度量(holistic):必须对整个数据集计算的度量 比如:median(),mode(),rank();算术平均值 加权算术均值 截断均值(trimmed mean):去掉高、低极端值得到的均值 e.g. 计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响 中位数:有序集的中间值或者中间两个值平均 整体度量;但是可以通过插值法计算近似值 ;众数(Mode,也叫模):集合中出现频率最高的值 单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数 ;最常用度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差 极差(range):数据集的最大值和最小值之差 百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x 中位数就是第50个百分位数 四分位数:Q1 (25th percentile), Q3 (75th percentile) 中间四分位数极差(IQR): IQR = Q3 – Q1 孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值;五数概括: min, Q1, Median, Q3, max 盒图:数据分布的一种直观表示 方差和标准差 方差 :n个观测之x1,x2...xn的方差是 标准差 是方差 的平方根 标准差 是关于平均值的离散的度量,因此仅当选平均值做中心度量时使用 所有观测值相同则 =0,否则 0 方差和标准差都是代数度量;盒图:数据分布的一种直观表示,在盒图中: 端点在四分位数上,使得盒图的长度是IQR 中位数M用盒内的线标记 胡须延伸到最大最小观测值 该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图 分店1 中位数$80 Q1: $60 Q3: $100;常用的显示数据汇总和分布的方法: 直方图、分位数图、q-q图、散布图和局部回归曲线 直方图:是一种概括给定属性分布的图形方法 将数据分布划分成不

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档