- 1、本文档共78页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章:数据预处理
* 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中,我们发现很多分层蕴涵在数据库的模式中,因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼,产生概念分层。 数值属性的概念分层可以根据数值分布分析自动的构造,我们主要考察5中方法: 分箱、递归的:比如将10,000个值,每个箱子中放10个,则可以将其规约为1000个值;如果要求将这10,000个值规约为10个概念,则只要将上述分箱方法递归的使用3次就可以了。 * 在这里有个概念首先要弄清楚:属性的序。属性的序代表的是属性间的一个包含关系,说明它们在概念分层上层次的高低,比如有这么个序: streetcityprovincecountry,就说明了他们在概念分层上… 数据仓库中的location可能定义了如下属性street,city,province,country和一个全序说明:streetcityprovincecountry,则我们可以根据这个信息通过概念分层进行信息汇总。 直接指定一部分数据在概念分层上的序关系:比如{杭州,宁波,温州} ∈浙江,来指定概念分层。(数据多的时候这个方法就不行了) 过会我们将给出一个例子,看系统如何自动生成属性的序。 用户只说明部分属性集的情况可能是常常发生的,比如上面那个例子: street,city,province,country;用户可能只说明city和province两个属性(他可能是粗心,或是对属性毫无概念);在这种情况下,概念分层就有赖于相关属性值(street,province)的恢复。要做到这一点,可以在定义数据库模式时将这4个属性捆绑在一起。 * 好,现在我们来看看刚才提到的那个系统根据某种算法自动产生属性的序,系统往往可以根据数据的内在联系而产生一些自动算法来生成概念分层。比如我们知道这么一个事实,在一个有序的属性集中,越底层的属性集将有越多的不同值跟它相对应,而越高层的属性值将有越少的不同值跟它相对应。因为底层属性的值要通过汇总才可以生成高层属性的值,而汇总就意味着不同值个数的减少。因此… 聚类 将数据集划分为聚类,然后通过聚类来表示数据集 如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效 数据可以分层聚类,并被存储在多层索引树中 聚类的定义和算法都有很多选择 选样 允许用数据的较小随机样本(子集)表示大的数据集 对数据集D的样本选择: s个样本无放回简单随机抽样(SRSWOR):由D的N个元组中抽取s个样本(sN) s个样本有放回简单随机抽样(SRSWR) :过程同上,只是元组被抽取后,将被回放,可能再次被抽取 聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的s个聚类上进行简单随机选择(SRS,mM) 分层选样:D被划分为互不相交的“层”,则可通过对每一层的简单随机选样(SRS)得到D的分层选样 选样——SRS SRSWOR (简单随机选 样,不回放) SRSWR 原始数据 第二章 数据预处理 为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成 定义 连续属性离散化就是采取各种方法将连续的区间划分为小的区间,并将这连续的小区间与离散的值关联起来。 连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。 为什么要对连续属性离散化 在实际数据库中存在较多的连续属性,而现有的很多数据挖掘算法只能处理离散型的属性 ,因此连续属性离散化是应用这些算法的前提。此外,有效的离散化能够减少算法的时间和空间开销、提高系统对样本的聚类能力、增强系统抗数据噪音的能力以及提高算法的学习精度。 离散化 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 将连续属性的范围划分为区间 有些分类算法只接受离散属性值 通过离散化有效的规约数据 离散化的数值用于进一步分析 离散化和概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值的个数 区间的标号可以代替实际的数据值 离散化可以在一个属性上递归的进行 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 离散化处理的一般过程 1.对连续属性值按照某种指定的规则进行排序;插入排序、冒泡排序、选择排序、快速排序、堆排序、归并排序、基数排序、希尔排序 2.初步确定连续属性的划分断点; 3.按照某种给定的判断标准继续分割断点或合并断点; 4.如果第三步得到判定标准的终止条件,则终止整个连续属性离散化过程,否则继续按第三步执行。 离散化方法的分类 连续属性离散化的方
文档评论(0)