- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计(论文)-基于SQL的关系数据库关联规则数据挖掘精选
数据挖掘(Knowledge Discovery in Database,简记KDD)的一个环节,是KDD中采用具体的数据挖掘算法从数据中自动高效地提取有用模式的最重要的步骤[19]。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。数据挖掘是一门交叉性学科,有很多不同的术语名称。其中,最常用的是知识发现和数据挖掘。相对来讲,数据挖掘主要流行于统计界(最早出现于统计文献中)、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。数据挖掘可粗略地理解为三部曲:数据准备(data preparation)、数据挖掘以及结果的解释评估(interpretation and evaluation)。 ?根据数据挖掘的任务分,有如下几种:分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。根据数据挖掘的对象分,有如下若干种数据源:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库Web数据源。根据数据挖掘的方法分,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
数据库能有效地存储数据和查询数据, 但不能有效地分析数据。数据挖掘不但分析数据,而且帮助用户得知原因,并预测未来。因此,数据挖掘被普遍认为是非常有效的数据分析工具,被信息产业界认为是数据库系统最重要的前沿技术之一,是信息产业最有前途的交叉学科。数据挖掘的过程:
1)了解应用领域,掌握相关先验知识以及应用的目标
2)收集并集成数据
3)对数据进行清洁和预处理
4)对数据进行归约和投影(发现有用特征,降维和变量约简)
5)确定适当的数据挖掘功能(总结、分类、回归、关联、聚类)
6)确定数据挖掘算法,并进行数据挖掘
7)对挖掘结果进行评估
8)对挖掘结果进行解释:分析结果
9)应用发现的知识
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分两类:描述式数据挖掘:刻划DB中数据的一般特性2)预测式数据挖掘:在当前数据上进行推断,以进行预测。数据挖掘的方法包括:
统计分析方法:对关系表的各属性进行统计分析,找到它们之间存在的关系。
决策树:决策树可用于分类。
人工神经网络:人工神经网络用于分类、聚类、特征挖掘、预测和模式识别。
遗传算法(Genetic Algorithm):遗传算法用于分类、关系型规则挖掘等。
粗糙集:粗糙集用于数据简化、数据意义评估、对象相似性或共性分析、因果关系及范式挖掘等。
联机分析处理技术。关联规则挖掘最早是由Agrawal等人提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作涉及到关联规则的挖掘理论的探索、原有的算法的改进和新算法的设计、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等问题。在提高挖掘规则算法的效率、适应性、可用性以及应用推广等方面,许多学者进行了不懈的努力。一个事务数据库中的关联规则挖掘可以描述如下:设I={ i1,i2,…,Im }是一个项目集合,事务数据库D={ t1,t2,…,tn }是由一系列具有唯一标识TID的事务组成,每个事务t(i=1,2,…,n)都对应I上的一个子集。设i1I,项目集i1在D上的支持度(support)是包含i1的事务在D中所占的百分比,即support(i1)= || {t D | i1∈t}|| / || D||。一个定义在I和D上的形如i1= i2的关联规则通过满足一定的可信度(confidence)来给出。所谓规
您可能关注的文档
- 毕业设计(论文)-基于OPNET的ZigBee网络无线漫游性能研究精选.doc
- 毕业设计(论文)-基于OPNET的网络仿真及其应用研究精选.doc
- 毕业设计(论文)-基于OBD模式的车联网的研究精选.doc
- 毕业设计(论文)-基于PCA的人脸识别的研究与实现精选.doc
- 毕业设计(论文)-基于OPNET的校园网网络规划和性能测试精选.doc
- 毕业设计(论文)-基于P2P架构的简单聊天程序的设计与实现精选.doc
- 毕业设计(论文)-基于optisystem的波分复用系统研究精选.doc
- 毕业设计(论文)-基于PC机控制的LED显示屏的设计精选.doc
- 毕业设计(论文)-基于PHP的图书馆管理系统的设计与实现精选.doc
- 毕业设计(论文)-基于OpenCV的图像轮廓提取方法的实现精选.doc
文档评论(0)