22实验原理.DOC

下载文档

3
0
约 3页
2017-06-25 发布于天津
举报
版权申诉
保障服务

22实验原理.DOC

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

22实验原理

项目2 数据集成与变换 2.1 实验目的（1）掌握数据集成时的三种冗余处理的基本方法；（2）掌握数据变换时的两类基本方法。 2.2 实验原理数据挖掘经常需要数据集成——由多个数据存储合并数据。数据还可能需要转换成适于挖掘的形式。 2.2.1 数据集成数据集成将多个数据源中的数据合并起来存放在一个一致的数据存储（如数据仓库）中。这些源可能包括多个数据库、数据立方体或一般文件。在数据集成是，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体的匹配涉及到实体识别问题。每个属性的元数据包括名字、含义、数据类型和属性的取值范围，以及处理空白、零或null值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据。因此，这一步也与数据清理有关。冗余是数据集成时需要考虑的一个重要问题。首先需要检测的是属性冗余。一个属性是冗余的，如果它能由另一个表“导出”。属性或维命名的不一致也可能导致数据集中的冗余。有些冗余可以通过相关分析检测到。例如，给定两个属性，根据可用的数据，这种分析可以度量一个属性能在多大程度上蕴涵另一个。属性A和B之间的相关性可以用皮尔逊相关系数来度量。该值越大，一个属性蕴涵另一个的可能性越大。因此，一个很大的值表明A（或B）可以作为冗余而被去掉。如果结果值等于0，则A和B是独立的，它们之间不相关。如果结果值小于0，则A和B是负相关的，一个值随另一个减少而增加。这表明每一个属性都阻止另一个出现。其次，还应该检测元组冗余。元组冗余是指对于同一个数据，存在两个或多个相同的元组。数据集成的另一个重要问题是数据值冲突的检测与处理。例如，对于现实世界的同一实体，来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码不同，如重量属性使用了不同的单位。在集成期间将一个数据库的属性与另一个匹配时，要特别关注数据的结构。这确保源系统中的属性函数依赖和参照约束与目标系统中的匹配。数据语义上的差异性对数据集成提出了巨大的挑战。仔细将多个数据源中的数据集中起来，能够减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。 2.2.2 数据变换数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容：平滑、聚集、数据概化、规范化和属性构造。其中，平滑也是一种数据清理形式，已在第2章中进行了介绍，严格来讲应该不包含在数据变换范畴；聚集和概化也是一种数据规约形式，将在第4、5章中进行介绍。因此，这里主要介绍规范化和属性构造。（1）规范化：通过将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0到1.0或0.0到1.0，对属性规范化。对于分类算法，如涉及神经网络的算法或诸如最邻近分类或聚类的距离度量分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性度量输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比，权重过大。有许多数据规范化的方法，这里介绍其中的三种：最小-最大规范化对原始数据进行线性变换。假定和分别为属性A的最小和最大值。最小-最大规范化通过计算：将A的值映射到区间[,]中的。最小-最大规范化保持原始数据值之间的关系。如果今后的输入落在A的原数据区之外，该方法将面临“越界”错误。在z-score规范化（即零均值规范化）中，属性A的值基于A的平均值和标准差规范化。A的值被规范化为，由下式计算：其中，和分别为属性A的平均值和标准差。当属性A的最大和最小值未知，或孤立点左右了最小-最大规范化时，该方法是有用的。小数定标规范化通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值被规范化为，由下式计算：其中，是使得的最小整数。需要注意的是，规范化将原来的数据改变很多，特别是上述后两种方法。有必要保留规范化参数（如使用z-score规范化时，属性A的平均值和标准差），以便将来的数据可以用一致的方法规范化。（2）属性构造（或特征构造）：由给定的属性构造和添加新的属性，以帮助提高精度和对高维数据结构的理解。例如，可以根据属性height和width添加属性area。属性结构可以帮助平缓使用判定树算法分类的分裂问题。在那里，沿着导出判定树的一条路径重复地测试一个属性。属性构造操作符的例子包括二进位属性的and和名字属性的product。通过组合属性，属性构造可以发现关于数据属性间联系的丢失信息，这对知识发现是有用的。 2.3 实验数据本次实验将对数据集成时的三种冗余处理方法和数据变换时的两类基本方法进行介绍。实验选用的数据集为来源于UCI机器学习库中的“Adult Datab