第5章-数据开采技术.pptVIP

下载本文档

14
0
约8.43千字
约 41页
2018-02-13 发布于河北
举报
版权申诉

第5章-数据开采技术.ppt

1、本文档共41页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第5章-数据开采技术

国内：数据仓库作为一种新型的数据存储地，为数据开采提供了新的支持平台。可以预见，数据仓库以其内在的对决策的支持能力，将会成为数据开采的主战场。数据仓库的发展不仅仅是为了数据开采开辟了新的空间，更对数据开采技术提出了新的要求。数据仓库环境下的数据开采定义：聚类是把一组个体相似性归成若干类别，即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小，而不同类别上的个体间的距离尽可能的大。方法：统计方法、机器学习方法、神经网络方法和面向数据库的方法神经网络一个输入结点的运算神经网络方法的优点和缺点：神经网络因为不能解释发现的关系，常被看做黑箱。它只能输入数字数据，这就意味着非数字数据需要转换。另外，输入还需要归一为0至1之间。神经网络通过很好的训练能快速预测新的案例，训练阶段是非常精密的，需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精确，即使永远训练。关联规则挖掘算法可以分解为两个子问题。（1) 找到所有支持度大于最小支持度的项集（itemset），这些项集称为频集（frequent itemset）。 (2) 使用第1步找到的频集产生期望的关联规则定义：所谓决策树就是一个类似流程图的树状结构，其中树的每个内部结点代表对一个属性（取值）的测试，其分支就代表测试的每个结果；而树的每个叶结点就代表一个类型。树的最高层结点就是根结点基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。决策树所表示的分类知识可以被抽取出来并可用if…then分类规则形式加以表示。从决策树的根结点到任一个叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条路径所形成的属性——值偶对就构成了分类规则条件部分（if部分）中的一个合取项；叶结点所标记的类别就构成了规则的结论内容（then部分）。if…then分类规则表达方式易于被人理解，且决策树较大时，if…then规则表示形式的优势就更加突出。定义：数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据开采技术被称为数据汇总(data generalization)。两种方法：数有数据立方体和面向属性数据立方体(多维数据库)方法的主要思想是将那些经常查询、代价高昂的运算,如Count、Sun、Average、Max和Min等汇总函数具体化，并存储在一个多维数据库中,为决策支持、知识发现及其他应用服务。面向属性的抽取方法用一种类SQL数据开采查询语言表达查询要求，收集相关数据，并利用属性删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示，可以将数据转化为不同类型的知识；或将其映射成不同的表,并从中抽取特征、判别式和分类等相关规则。空间数据开采技术帮助人们从庞大的空间数据中抽取有用信息方法： 1. 粗集(rough set)方法在数据库中将元素看成对象,将列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被称为等价关系R的等价类。 2. 遗传算法模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)3个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。 3. 公式发现在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数学公式。BACON发现系统完成了对物理学大量定律的重新发现。 4. 统计分析方法在数据库字段项之间存在两种关系：函数关系和相关关系,对它们的分析可采用回归分析、相关分析、主成分分析等方法。 5. 模糊集合方法利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强，这是Zadeh总结出的互克性原理。 6. 可视化技术拓宽了传统的图表功能,使用户对数据剖析更清楚。另外，还有归纳逻辑程序(inductive logic programming)、Bayesian网络等方法。云的概念经常用图形表示，云的几何形状对理解定性和定量之间的转换很有帮助。云由相当多的云滴组成，云的整体反映一个定性概念（即语言值），对应的数值域作为自变量。 “年龄”的几个定性概念和数值间的转换发现状态空间是一个三维立体空间，是发现系统实施多种发现算法的运作空间。在一个二维的平面基底——知识基上逐步抽象。知识基是原始数据库经数据汇集处理后得到的二维表。它汇集了原始数据库中发现任务相关的所有数据的总体特征，是知识发现状态空间的基底，也可以认为是最初始的知识模板。在发现状态空间内进