- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
项目数据清理实验目的掌握缺失值的六种基本处理手段掌握噪声数据的三种基本平滑处理手段实验原理对于数据挖掘和分析人员来说数据准备包括数据的抽取清洗转换和集成常常占据了左右的工作量而在数据准备的过程中数据质量差又是最常见而且令人头痛的问题在各种实用的数据库中属性值缺失的情况经常发全甚至是不可避免的值得注意的是这里所说的缺失值不仅包括数据库中的值也包括用于表示数值缺失的特殊数值比如在系统中用来表示数值不存在如果仅有数据库的数据模型而缺乏相关说明常常需要花费更多的精力来发现这些数值的特殊含义而如果漠视这些
项目1 数据清理
1.1 实验目的
(1)掌握缺失值的六种基本处理手段;
(2)掌握噪声数据的三种基本平滑处理手段。
1.2 实验原理
对于数据挖掘和分析人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。在各种实用的数据库中,属性值缺失的情况经常发全甚至是不可避免的。值得注意的是,这里所说的缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。如果仅有数据库的数据模型,而缺乏相关说明,常常需要花费更多的精力来发现这些数值的特殊含义。而如果漠视这些数值的特殊性,直接拿来进行挖掘,那么很可能会得到错误的结论。还有一种数值缺失的情况,是因为要求统计的时间窗口并非对所有数据都适合。例如,希望计算出“客户在以前六个月内的最大存款余额”,对于那些建立账户尚不满六个月的客户来说,统计出来的数值与想要得到的就可能存在差距。对数据挖掘来说,的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。一般来说,对缺失值的填充方法有多种缺失值缺失值缺失值缺失值缺失值缺失值缺失值缺失值缺失值缺失值数据缺失在许多研究领域都是一个复杂的问题。补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实。而且,对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理这类方法包括贝叶斯网络[48]和人工神经网络[49]等。从理论上来说,贝叶斯考虑了一切,但是只有当数据集较小或满足某些条件(如多元正态分布)时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是,采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论,D-S的证据理论等。quinlan@cs.su.oz.au。为了必威体育官网网址,该集合中的属性及其值都转换成了无意义的符号(该数据已给出,其文件为EXCEL文件,名为’Credit Approval’)。记录的数目:690,其中37个 (5%)记录有一个或多个缺失值。
本实验将通过对这些资料的分析,学习属性缺失值和噪声数据的处理方法。
表2.1 原始数据资料描述表
变量 ROLE 类型 不同值个数 值列表 缺失值个数 A1 input 二元变量 2 b, a 12 A2 input 连续变量 12 A3 input 连续变量 0 A4 input 名义变量 4 u, y, l, t 6 A5 input 名义变量 3 g, p, gg 6 A6 input 名义变量 14 c, d, cc, i, j, k, m, r,
q, w, x, e, aa, ff 9 A7 input 名义变量 9 v, h, bb, j, n, z, dd, ff, o 9 A8 input 连续变量 0 A9 input 名义变量 2 t, f 0 A10 input 名义变量 2 t, f 0 A11 input 连续变量 0 A12 input 名义变量 2 t, f 0 A13 input 名义变量 3 g, p, s 0 A14 input 连续变量 13 A15 input 连续变量 0 A16 target 二元变量 9 +,- 0 存在不完整、含噪声的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。错误数据可能能使挖掘过程陷入混乱,导致不可靠的输出。这样,我们必须使用数据预处理过程——数据清理。数据清理过程通过填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致来“清理”数据。
经过对本实验数据的观察,发现在某些属性中含有一些缺失值。为了减少缺失值的影响,必须根据数据集的分布特征对缺失值进行填充如果原始数据中存在噪声数据,也需要进行消除。
文档评论(0)