网站大量收购闲置独家精品文档,联系QQ:2885784924
  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库 (四) 2.8 数据挖掘 在数据库及数据仓库中存贮有大量的数据,它们具有规范的结构形式与可靠的来源,且数量大、保存期间长,是一种极为宝贵的数据资源。充分开发、利用这些数据资源是目前计算机界的一项重要工作。 数据资源的利用有三种方式: 数据资源的查询服务 数据资源的演绎 知识的利用与有哪些信誉好的足球投注网站(AI) 演绎数据库 统计分析软件(SAS,SPSS) 数据资源的归纳 数据挖掘数据资源的归纳 2.8.1 什么是数据挖掘? 数据挖掘又称为数据库中的知识发现(KDD:Knowledge Discovery in Database),它起源于80年代初。 机器学习和数据分析的理论及实践是数据挖掘研究的基础,极大的商业应用前景又是数据挖掘研究工作的巨大推动力。 传统的数据库查询和统计只能提供你想要的信息,而数据挖掘技术则可以发现你没有意识到的未知信息。 什么是数据挖掘? 2.8.1 什么是数据挖掘? 数据挖掘就是对数据库(数据仓库)中蕴涵的、未知的、非平凡的、有潜在应用价值的模式(规则)的提取。 数据挖掘就是从大型数据库(数据仓库)的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息。 因此,我们认为数据挖掘必须包括三个因素: 数据挖掘的本源:大量、完整的数据 数据挖掘的结果:知识、规则 结果的隐含性:因而需要一个挖掘过程 2.8.1 什么是数据挖掘? 因此,我们应该是在一个大量的完整数据集中进行数据的挖掘工作,归纳结果应该是具有普遍性意义的规则,我们从一万条数据中找出的规律也应该能够适用于十万、一百万、……的情况。例如: 从一个没有同名的人群中可以抽取出关键字(即标识属性)‘姓名’,但这显然不适合普遍情况。 数据挖掘的目的:用归纳出的规律来指导客观世界 数据挖掘中的几个基本概念: 2.8.1 什么是数据挖掘? 模式(pattern) 用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。 例如:在超市的商品销售数据库中,我们可以找到以下信息: 男性顾客在购买婴儿尿布时也往往同时购买啤酒 在购买面包和黄油的顾客中,大部分的人同时也买了牛奶 知识(discovered knowledge) 满足用户兴趣度和置信度的模式。 2.8.1 什么是数据挖掘? 置信度(confidence) 知识在某一数据域上为真的量度。 置信度涉及到许多因素,如数据的完整性、样本数据的大小、领域知识的支持程度等。 没有足够的确定性,模式不能成为知识。 例如:模式‘在购买面包和黄油的顾客中,大部分的人同时也买了牛奶’的置信度为: 同时购买‘面包、黄油、牛奶’的顾客人数占同时购买‘面包、黄油’的顾客人数的百分比。 2.8.1 什么是数据挖掘? 兴趣度(interestingness) 在一定数据域上为真的知识被用户关注的程度。 有效性(effectiveness) 知识的发现过程必须能够有效地在计算机上实现。 非平凡性(nontrivial) 能够以确定的计算过程提取的模式称为平凡知识。平凡的知识(如根据数据库中的薪水字段求得职员的平均薪水)不是数据挖掘的目标。 在数据挖掘中,知识的发现过程都应具有某种不确定性和一定的自由度,也就是要发现不平凡的知识。 2.8.1 什么是数据挖掘? 从上面的讨论中可以看出来,数据挖掘的过程具有以下一些显著的特点: 数据挖掘要处理大量的数据,它所处理的数据库(数据仓库)的规模十分庞大,达到GB、TB,甚至更大; 由于用户不能形成精确的查询要求,因此要依靠数据挖掘技术为用户找寻他可能感兴趣的东西; 在数据挖掘过程中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到一定的“门槛”时,即认为具有此规则。由此,利用数据挖掘技术可能会发现大量的规则; 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据集合具有的规则,随着不断地向数据库(数据仓库)中加入新数据,需要不断地更新规则。 2.8.1 什么是数据挖掘? 数据挖掘技术在决策支持过程中所处的位置如下图: 2.8.2 数据仓库与数据挖掘 在传统的决策支持系统中,数据挖掘技术是建立在数据库的基础上的(如下左图),数据挖掘只是其中的一个部分,在这之前需要大量的数据查询和预处理。有了数据仓库技术之后,由于数据仓库中的数据都是经过抽取、整理和预处理后的综合数据,因而数据挖掘工作可以在数据仓库上直接运行。 2.8.2 数据仓库与数据挖掘 利用数据库系统进行数据挖掘的缺点是: 动态数据(Dynamic Data) 大多数数据库的基本特点是内容将经常变化。在一个在线系统中,必须采用预警机制来保证数据库中的这些变化不会导致错误的数据挖掘结果。 噪声和不确定性(Noise Uncertain

文档评论(0)

xinshengwencai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5311233133000002

1亿VIP精品文档

相关文档