《数据挖掘概念与技术原书第2版第2章数据预处理》课件.ppt

《数据挖掘概念与技术原书第2版第2章数据预处理》课件.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理 维度归约 使用数据编码或变换,以便得到原数据的归约或“压缩”表示 两种有损的维度归约方法 小波变换,一种线性信号处理技术 可以用于多维数据,如数据立方体 对于稀疏或倾斜数据和具有有序属性的数据,能给出很好的结果 适合高维数据 主成分分析,有哪些信誉好的足球投注网站k个最能代表数据的n维正交向量,其中k小于等于n, 这样,原来的数据投影到一个小得多的空间,导致维度归约。 该计算开销低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。 能够更好的处理稀疏数据 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 根据直观划分离散化 分类数据是指无序的离散数据,它有有限个值(可能很多个)。 分类数据的概念分层生成方法: 由用户或专家在模式级显式地说明属性的偏序。 通过显示数据分组说明分层结构的一部分。 说明属性集,但不说明它们的偏序。 对只说明部分属性集的情况。 分类数据的概念分层产生 根据在给定属性集中,每个属性所包含的不同值的个数,可以自动的生成概念分成;不同值个数最多的属性将被放在概念分层的最底层。 country province city street 5个不同值 65 个不同值 3567 个不同值 674,339 个不同值 没有高质量的数据,就没有高质量的挖掘结果 * 四分位数给出数据分布的中心、离散和形状的某种指示 * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后,数据的细节丢失了,但是概化后的数据更有意义,更容易解释,而且所需的存储空间更少。有效的减少I/O支出 * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中,我们发现很多分层蕴涵在数据库的模式中,因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼,产生概念分层。 数值属性的概念分层可以根据数值分布分析自动的构造,我们主要考察5中方法: 分箱、递归的:比如将10,000个值,每个箱子中放10个,则可以将其规约为1000个值;如果要求将这10,000个值规约为10个概念,则只要将上述分箱方法递归的使用3次就可以了。 * 在这里有个概念首先要弄清楚:属性的序。属性的序代表的是属性间的一个包含关系,说明它们在概念分层上层次的高低,比如有这么个序: streetcityprovincecountry,就说明了他们在概念分层上… 数据仓库中的location可能定义了如下属性street,city,province,country和一个全序说明:streetcityprovincecountry,则我们可以根据这个信息通过概念分层进行信息汇总。 直接指定一部分数据在概念分层上的序关系:比如{杭州,宁波,温州} ∈浙江,来指定概念分层。(数据多的时候这个方法就不行了) 过会我们将给出一个例子,看系统如何自动生成属性的序。 用户只说明部分属性集的情况可能是常常发生的,比如上面那个例子: street,city,province,country;用户可能只说明city和province两个属性(他可能是粗心,或是对属性毫无概念);在这种情况下,概念分层就有赖于相关属性值(street,province)的恢复。要做到这一点,可以在定义数据库模式时将这4个属性捆绑在一起。 * 好,现在我们来看看刚才提到的那个系统根据某种算法自动产生属性的序,系统往往可以根据数据的内在联系而产生一些自动算法来生成概念分层。比如我们知道这么一个事实,在一个有序的属性集中,越底层的属性集将有越多的不同值跟它相对应,而越高层的属性值将有越少的不同值跟它相对应。因为底层属性的值要通过汇总才可以生成高层属性的值,而汇总就意味着不同值个数的减少。因此… 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 对

文档评论(0)

沙卡娜 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档