3.数据预处理.ppt

下载文档 降价啦

4
0
约1.27万字
约 53页
2017-06-03 发布于湖北
举报
版权申诉
保障服务

3.数据预处理.ppt

1、本文档共53页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.数据预处理要点

* * * * MK 09/09/05: Wiki has dimensionality reduction as feature extraction (PCA) and feature subset selection. It states both wavelet transforms and PCA as forms of data compression. It does not have any pages for numerosity reduction. We claim there are many different ways to organize data reduction strategies, which is true, so this presentation below should be OK. Let’s discuss. * * * * 数据挖掘的实践中，使用离散化进行数据规约主要是适用于以下三类属性值…，连续值（比如实数），如果不使用离散化进行表示，其个数将是无穷无尽的。怎么离散化？…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上（比如一个判定条件为：400?，0－1000的整数将在比较1000次后得出结果，但是如果先将这1000个值划分为10个区间：0-100,100-200…900-1000，则只要比较10次就可以得出结果） * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中，我们发现很多分层蕴涵在数据库的模式中，因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼，产生概念分层。数值属性的概念分层可以根据数值分布分析自动的构造，我们主要考察5中方法：分箱、递归的：比如将10,000个值，每个箱子中放10个，则可以将其规约为1000个值；如果要求将这10,000个值规约为10个概念，则只要将上述分箱方法递归的使用3次就可以了。 * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后，数据的细节丢失了，但是概化后的数据更有意义，更容易解释，而且所需的存储空间更少。有效的减少I/O支出 * 在这里有个概念首先要弄清楚：属性的序。属性的序代表的是属性间的一个包含关系，说明它们在概念分层上层次的高低，比如有这么个序： streetcityprovincecountry，就说明了他们在概念分层上… 数据仓库中的location可能定义了如下属性street，city，province，country和一个全序说明：streetcityprovincecountry，则我们可以根据这个信息通过概念分层进行信息汇总。直接指定一部分数据在概念分层上的序关系：比如{杭州，宁波，温州} ∈浙江，来指定概念分层。（数据多的时候这个方法就不行了）过会我们将给出一个例子，看系统如何自动生成属性的序。用户只说明部分属性集的情况可能是常常发生的，比如上面那个例子： street，city，province，country；用户可能只说明city和province两个属性（他可能是粗心，或是对属性毫无概念）；在这种情况下，概念分层就有赖于相关属性值（street，province）的恢复。要做到这一点，可以在定义数据库模式时将这4个属性捆绑在一起。 * 好，现在我们来看看刚才提到的那个系统根据某种算法自动产生属性的序，系统往往可以根据数据的内在联系而产生一些自动算法来生成概念分层。比如我们知道这么一个事实，在一个有序的属性集中，越底层的属性集将有越多的不同值跟它相对应，而越高层的属性值将有越少的不同值跟它相对应。因为底层属性的值要通过汇总才可以生成高层属性的值，而汇总就意味着不同值个数的减少。因此… * * * MK 08.11.02: This needs to be updated to reflect changes. 数据值冲突的检测与处理对于现实世界的同一实体，来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。属性也可能在不同的抽象层，其中属性在一个系统中记录的抽象层可能比另一个系统中“相同的”属性低。 * * 第3章:数据预处理数据预处理: 概述数据质量预处理中的主要任务数据清理数据集成数据规约数据变换和数据离散化小结 * 数据规约策略数据归约(data reduction)技术可以用来得到数据集的归约表示，它小得多，但仍接近于保持原始数据的完整性。也就是说，在归约后的数据集上挖掘将更有效，仍然产生相同(或几乎相同)的分析结果。规约策略维归约, e.g., remove unimportant attributes Wavelet transforms Princ