第5章+数据预处理.ppt

下载文档

75
0
约1.47万字
约 98页
2017-09-02 发布于广东
举报
版权申诉
保障服务

第5章+数据预处理.ppt

1、本文档共98页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第5章数据预处理本章包括：数据预处理基本功能数据预处理的方法数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。数据挖掘：为企业决策者提供重要的、有价值的信息或知识，从而为企业带来不可估量的经济效益。数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中，数据预处理要花费60% 左右的时间，而后的挖掘工作仅占总工作量的10% 左右。目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。数据挖掘的必要性：在海量的原始数据中，存在着大量杂乱的、重复的、不完整的数据，严重影响到数据挖掘算法的执行效率，甚至可能导致挖掘结果的偏差。数据预处理分类：从对不同的源数据进行预处理的功能来分，数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。在实际的数据预处理过程中，这4种功能不一定都用到，而且，它们的使用也没有先后顺序，某一种预处理可能先后要多次进行。从数据预处理所采用的技术和方法来分：基本粗集理论的简约方法；复共线性数据预处理方法；基于Hash函数取样的数据预处理方法；基于遗传算法数据预处理方法；基于神经网络的数据预处理方法； Web挖掘的数据预处理方法等等。 5.1数据预处理基本功能在数据挖掘整体过程中,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据，严重影响到数据挖掘算法的执行效率，甚至可能导致挖掘结果的偏差。为此，在数据挖掘算法执行之前，必须对收集到的原始数据进行预处理，以改进数据的质量，提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术。 5.1.1　数据清理数据清理要去除源数据集中的噪声数据和无关数据，处理遗漏数据和清洗脏数据、空缺值，识别删除孤立点等。 5.1.1.1噪声数据处理噪声是一个测量变量中的随机错误或偏差，包括错误的值或偏离期望的孤立点值。对于噪声数据有如下几种处理方法：分箱法聚类法识别孤立点回归 5.1.1.2空缺值的处理目前最常用的方法是使用最可能的值填充空缺值，如用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类，然后用同一类中属性的平均值填充空缺值。例5.2：一个公司职员平均工资收入为3000元，则使用该值替换工资中“基本工资”属性中的空缺值。 5.1.1.3清洗脏数据异构数据源数据库中的数据并不都是正确的，常常不可避免地存在着不完整、不一致、不精确和重复的数据，这些数据统称为“脏数据”。脏数据能使挖掘过程陷入混乱，导致不可靠的输出。清洗脏数据可采用下面的方式：手工实现方式用专门编写的应用程序采用概率统计学原理查找数值异常的记录对重复记录的检测与删除 5.1.2.1 实体识别问题在数据集成时，来自多个数据源的现实世界的实体有时并不一定是匹配的，例如：数据分析者如何才能确信一个数据库中的student_id和另一个数据库中的stu_id 值是同一个实体。通常，可根据数据库或数据仓库的元数据来区分模式集成中的错误。 5.1.2.2冗余问题数据集成往往导致数据冗余，如同一属性多次出现、同一属性命名不一致等，对于属性间冗余可以用相关分析检测到，然后删除。 5.1.2.3 数据值冲突检测与处理　对于现实世界的同一实体，来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码、数据类型、单位不统一、字段长度不同。 5.1.3　数据变换数据变换主要是找到数据的特征表示，用维变换或转换方法减少有效变量的数目或找到数据的不变式，包括规格化、归约、切换、旋转和投影等操作。规格化是指将元组集按规格化条件进行合并，也就是属性值量纲的归一化处理。规格化条件定义了属性的多个取值到给定虚拟值的对应关系。对于不同的数值属性特点，一般可以分为取值连续和取值分散的数值属性规格化问题。归约指将元组按语义层次结构合并。语义层次结构定义了元组属性值之间的语义关系。规格化和归约能大量减少元组个数，提高计算效率。同时，规格化和归约过程提高了知识发现的起点，使得一个算法能够发现多层次的知识，适应不同应用的需要。 5.1.4　数据归约数据归约是将数据库中的海量数据进行归约