第6章：数据预处理.ppt

下载文档 降价啦

16
0
约1.26万字
约 78页
2017-11-05 发布于湖北
举报
版权申诉
保障服务

第6章：数据预处理.ppt

1、本文档共78页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第6章：数据预处理

* 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中，我们发现很多分层蕴涵在数据库的模式中，因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼，产生概念分层。数值属性的概念分层可以根据数值分布分析自动的构造，我们主要考察5中方法：分箱、递归的：比如将10,000个值，每个箱子中放10个，则可以将其规约为1000个值；如果要求将这10,000个值规约为10个概念，则只要将上述分箱方法递归的使用3次就可以了。 * 在这里有个概念首先要弄清楚：属性的序。属性的序代表的是属性间的一个包含关系，说明它们在概念分层上层次的高低，比如有这么个序： streetcityprovincecountry，就说明了他们在概念分层上… 数据仓库中的location可能定义了如下属性street，city，province，country和一个全序说明：streetcityprovincecountry，则我们可以根据这个信息通过概念分层进行信息汇总。直接指定一部分数据在概念分层上的序关系：比如{杭州，宁波，温州} ∈浙江，来指定概念分层。（数据多的时候这个方法就不行了）过会我们将给出一个例子，看系统如何自动生成属性的序。用户只说明部分属性集的情况可能是常常发生的，比如上面那个例子： street，city，province，country；用户可能只说明city和province两个属性（他可能是粗心，或是对属性毫无概念）；在这种情况下，概念分层就有赖于相关属性值（street，province）的恢复。要做到这一点，可以在定义数据库模式时将这4个属性捆绑在一起。 * 好，现在我们来看看刚才提到的那个系统根据某种算法自动产生属性的序，系统往往可以根据数据的内在联系而产生一些自动算法来生成概念分层。比如我们知道这么一个事实，在一个有序的属性集中，越底层的属性集将有越多的不同值跟它相对应，而越高层的属性值将有越少的不同值跟它相对应。因为底层属性的值要通过汇总才可以生成高层属性的值，而汇总就意味着不同值个数的减少。因此… 聚类将数据集划分为聚类，然后通过聚类来表示数据集如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效数据可以分层聚类，并被存储在多层索引树中聚类的定义和算法都有很多选择选样允许用数据的较小随机样本（子集）表示大的数据集对数据集D的样本选择： s个样本无放回简单随机抽样（SRSWOR）：由D的N个元组中抽取s个样本（sN） s个样本有放回简单随机抽样（SRSWR）：过程同上，只是元组被抽取后，将被回放，可能再次被抽取聚类选样：D中元组被分入M个互不相交的聚类中，可在其中的s个聚类上进行简单随机选择（SRS，mM）分层选样：D被划分为互不相交的“层”，则可通过对每一层的简单随机选样（SRS）得到D的分层选样选样——SRS SRSWOR (简单随机选样，不回放) SRSWR 原始数据第二章数据预处理为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成定义连续属性离散化就是采取各种方法将连续的区间划分为小的区间，并将这连续的小区间与离散的值关联起来。连续属性离散化的问题本质是：决定选择多少个分割点和确定分割点位置。为什么要对连续属性离散化在实际数据库中存在较多的连续属性，而现有的很多数据挖掘算法只能处理离散型的属性，因此连续属性离散化是应用这些算法的前提。此外，有效的离散化能够减少算法的时间和空间开销、提高系统对样本的聚类能力、增强系统抗数据噪音的能力以及提高算法的学习精度。离散化三种类型的属性值：名称型：无序集合中的值；e.g. 颜色、职业序数：有序集合中的值； e.g. 军衔、职称连续值；e.g. 实数离散化将连续属性的范围划分为区间有些分类算法只接受离散属性值通过离散化有效的规约数据离散化的数值用于进一步分析离散化和概念分层离散化通过将属性域划分为区间，减少给定连续属性值的个数区间的标号可以代替实际的数据值离散化可以在一个属性上递归的进行概念分层通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据离散化处理的一般过程 1.对连续属性值按照某种指定的规则进行排序；插入排序、冒泡排序、选择排序、快速排序、堆排序、归并排序、基数排序、希尔排序 2.初步确定连续属性的划分断点； 3.按照某种给定的判断标准继续分割断点或合并断点； 4.如果第三步得到判定标准的终止条件，则终止整个连续属性离散化过程，否则继续按第三步执行。离散化方法的分类连续属性离散化的方