第6章-数据预处理.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章-数据预处理

(4)离散化和概念分层产生 离散化技术方法可以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。可以用一个标签来表示一个区间内的实际数据值,这样就形成了数据集的概念分层。 如对数据集D递归的使用等宽分箱技术,形成概念分层。 6.5数据归约 6.5.4数值归约 6.5数据归约 6.5.4数值归约 1)数值数据的离散化与概念分层 数值数据的概念分层可以通过数据分析自动产生,这些方法包括前面介绍过的分箱、直方图、聚类等。它们能够无干预的完成对属性的概念分层,但是这些方法划分出来的层并不考虑边界值是否直观或自然。 通常,用户更希望分层具有自然的,易于记忆的、符合人类思维习惯的边界。例如人们希望看到[20-30]、[30-40],而不愿意看到[23.333-36.97]之类的分层。 6.5数据归约 6.5.4数值归约 介绍一种通过自然划分分段的方法进行概念分层的过程。该方法应用3-4-5规则,递归地将给定数据区域划分为3、4、或5个等宽的区间,具体描述如下: (1)如果待划分的区间在最高有效位上包含3、6、7或9个不同的值,则将该区间划分成3个区间。其中,如果是3、6或9,则划分成等宽的3个区间,如果是7,则按2-3-2划分成3个区间。 (2)如果待划分区间最高有效位上包含2、4或8个不同的值,则把它划分成4个等宽的区间。 (3)如果待划分区间最高有效位上包含1、5或10个不同的值,则把它划分成5个等宽的区间。 在每个区间上递归的应用3—4—5规则,生成数据的概念分层,直到满足预先设定的终止条件。 6.5数据归约 6.5.4数值归约 6.5数据归约 6.5.4数值归约 如果数据集D的分布曲线呈现下图所示的情况,区间两端的值所占的比例非常少,可以根据情况设值一个置信区间(如5%-95%),以这两个点上的值作为初始划分的区间,如[-9,28],同样在10(千元)上取整,得到区间[-10,30],采用3-4-5规则。 6.5数据归约 6.5.4数值归约 6.5数据归约 6.5.4数值归约 由于设置了置信区间[5%,95%],实际上集合D1的左边界和D4的右边界都未包含集合 D 的实际边界- 13 和 32 ,所以应该在两端补充两个集合表示缺失的数据。 6.5数据归约 6.5.4数值归约 2)分类数据的概念分层 分类数据是指分类属性值所包含的数据(可以是数值型、字符型或字符串等),所谓分类属性,就是指那些具有有限个取值的属性,如商品类型、店铺的位置和客户类型等,这些数据之间没有大小关系,所以不能采用数值数据的分层方法。 6.5数据归约 6.5.4数值归约 ①由用户或者专家在模式级显式地说明数据的包含关系。 如果分类属性之间存在部分包含或者完全包含的关系,可以由用户或者领域专家说明属性之间的包含关系,根据这个包含关系形成概念分层。如由常识可知,在属性组: year , month , day 之间就存在完全包含关系: day month year ,可以用这个关系定义它们的概念分层。 6.5数据归约 6.5.4数值归约 ②通过显式数据分组说明分层结构的一部分。 手工的定义部分概念分层,在产生包含关系的属性之间,有的属性取值数目较少,而有一些属性包含大量不同的离散值,对取值过多的属性,通过枚举值一一的定义概念分层是不可能的,而对于值较少的属性,可以对它们进行手工的分组。如把日期值{ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 }定义为“上旬” , { 11 , 12 , 13 , 14 , 15 , 16 , 17 , 18 , 19 , 20 }定义为“中旬” , { 21 , 22 , 23 , 24 , 25 , 26 , 27 , 28 , 29 , 30 )定义为“下旬”。 6.5数据归约 6.5.4数值归约 ③根据属性值的个数自动产生分层。 只给出属性组,不定义属性的包含关系,根据属性值的个数自动产生分层。此方法的根据是:与定义在较低概念层的属性相比,定义在较高概念层的属性通常具有较少数量的不同的值,把具有最少不同值的属性放在最高层,属性的不同值数目越多,所处的概念层越低。并不是所有的属性之间的关系都可以这样确定,如上面的例子中,如果属性“ year ”的不同取值个数超过 12 ,则会产生类似: day year month 的概念分层,所以有时候需要对自动产生的分层进行手工调整。 6.5数据归约 6.5.4数值归约 ④根据数据语义产生

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档