- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘CHAPER3数据预处理
数据预处理
当今现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,因为数据库太大,常常多达数千兆,甚至更多。“如何预处理数据,提高数据质量,从而提高挖掘结果的质量?”你可能会问。“怎样预处理数据,使得挖掘过程更加有效、更加容易?”
有大量数据预处理技术。数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据方。数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
本章,你将学习数据预处理的方法。这些方法包括:数据清理、数据集成和转换、数据归约。本章还讨论数据离散化和概念分层,它们是数据归约的一种替换形式。概念分层可以进一步用于多抽象层挖掘。你将学习如何由给定的数据自动地产生概念分层。
为什么要预处理数据?
想象你是AllElectronics的经理,负责分析涉及你部门的公司数据。你立即着手进行这项工作。你仔细地研究和审查公司的数据库或数据仓库,找出应当包含在你的分析中的属性或维,如item, price和units_sold。啊!你注意到,许多元组在一些属性上没有值。对于你的分析,你希望知道每种销售商品是否通过广告降价销售,但你又发现这些信息根本未记录。此外,你的数据库系统用户已经报告一些错误、不寻常的值和某些事务记录中的不一致性。换言之,你希望使用数据挖掘技术分析的数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪音的(包含错误,或存在偏离期望的局外者),并且是不一致的(例如,用于商品分类的部门编码存在差异)。欢迎来到现实世界!
存在不完整的、含噪音的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其它数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录是由于理解错误,或者因为设备故障。此外,记录历史或修改的数据可能被忽略。与其它数据不一致的数据可以删除。遗漏的数据,特别是某些属性上缺少值的元组可能需要推导出来。
数据含噪音(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人的或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。这些可能是由于技术的限制,如用于数据传输同步的缓冲区大小的限制。不正确的数据也可能是由命名或所用的数据代码不一致而导致的。重复元组也需要数据清理。
数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除局外者,并解决不一致来“清理”数据。脏数据造成挖掘过程陷入困惑,导致不可靠的输出。尽管大部分挖掘例程都有一些过程,处理不完整或噪音数据,但它们并非总是强壮的。相反,它们更致力于避免数据过分适合所建的模型。这样,一个有用的预处理步骤是使用某些清理例程清理你的数据。3.2节讨论清理数据的方法。
回到你在AllElectronics的任务,假定你想在你的分析中包含来自多个数据源的数据。这涉及集成多个数据库、数据方或文件,即数据集成。代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。例如,关于顾客标识符的属性在一种数据存储中为customer_id,而在另一种为cust_id。命名的不一致还可能出现在属性值中。例如,同名的人可能在一个数据库中登记为Bill,在第二个数据库中登记为William,而在第三个数据库中登记为“B”。此外,你可能会觉察到,有些属性可能是由其它属性导出的(例如,年收入)。含大量冗余数据可能降低知识发现过程的性能或使之陷入困惑。显然,除数据清理之外,必须采取步骤,避免数据集成时的冗余。通常,在为数据仓库准备数据时,数据清理和集成将作为预处理步骤进行。还可以再次进行数据清理,检测和移去可能由集成导致的冗余。
回到你的数据,如果你决定要使用诸如神经网络、最临近分类或聚类这样的基于距离的挖掘算法进行你的分析。如果要分析的数据已规格化,即按比例映射到一个特定的区间[0.0,1.0],这种方法能得到较好的结果。例如,你的顾客数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄更大。这样,如果属性未规格化,在年薪上距离度量所取的权重一般要超过在年龄度量上所取的权重。此外,对于你的分析,得到每个地区的销售额这样的聚集信息可能有用的。这种信息不在你的数据仓库的任何预计算的数据方中。你很快意识到,数据变换操作,如规格化和聚集,是导向挖掘过程成功的预处理过程。数据集成和数据变换将在3.3节讨论。
随着你进一步考虑数据,你想知道“我所选择用于数据分析的数据集
您可能关注的文档
最近下载
- 京剧的服装课件.ppt VIP
- 保证供货周期的组织方案和人力资源安排.doc VIP
- 乌有先生历险记(原文,练习,注释,翻译)解读.doc
- 红色经典故事PPT课件.pptx VIP
- (人教版2024)生物七上2.2.1 无脊椎动物(新教材).pptx
- 2023-2024学年江西省上饶市余干县八年级上期中物理试卷附答案解析.pdf
- 西北师范大学教育学理论与实践期末试卷.doc VIP
- 2023年成都信息工程大学数据科学与大数据技术专业《数据结构与算法》科目期末试卷B(有答案).docx VIP
- 河北省衡水中学2024-2025学年高三上学期第一次综合素养测评数学试题(原卷版).docx
- 数据结构(用面向对象方法与C++语言描述)第二版.pdf VIP
文档评论(0)