数据仓库与数据挖掘培训课件.pptx

数据仓库与数据挖掘培训课件.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共46页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

28二月2021;第1章

数据仓库与数据挖掘概述

;第1章

;1.1.1从数据库到数据仓库;1.数据库用于事务处理;数据库的局限性

传统数据库所能做到的只是对已有的数据进行存取以及简单的查询统计,即使是一些流行的OLAP工具,也无非是另一种数据展示方式而已。人们仍然无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。这也直接导致了目前“数据爆炸但知识匮乏”的现状。;2.数据仓库用于决策分析;3.数据库与数据仓库对比;数据仓库与数据库的关系

数据库的应用包括:事务型应用和分析型应用

物理数据库实际存储的数据包括:

事务型数据(或称操作数据)和分析型数据(也可称为汇总数据、信息数据)。

起初,两类数据放到一起,即分散存储在各底层的业务数据库中。

后来,随着企业规模的扩展、数据量的增加、以及希望在决策分析时得到更多支持需求的日益迫切,并且考虑保证原有事务数据库的高效性与安全性。因此将分析型数据与事务型数据相分离,单独存放,即形成了所谓的数据仓库。;数据仓库与数据库的关系

数据仓库只不过是因为用户需求增加而对某一类数据库应用的一个范围的界定。单就其是数据的存储容器这一点而言,数据仓库与数据库并没有本质的区别。

而且在更多的时候,我们是将数据仓库作为一个数据库应用系统来看待的。

因此,不应该说数据库到数据仓库是技术的进步。;1.1.2从OLTP到OLAP;1.联机事物处理(OLTP);OLTP的特点在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。

大量的数据操作主要涉及的是一些增加、删除、修改、查询等操作。每次操作的数据量不大且多为当前的数据。

OLTP处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。

OLTP面对的是事务处理操作人员和低层管理人员。

但是,为高层领导者提供决策分析时,OLTP则显得力不从心。;2.联机分析处理(OLAP);OLAP专门用于支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持,

OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂地形式将查询结果提供给决策制定人。

OLAP软件,以它先进地分析功能和以多维形式提供数据的能力,正作为一种支持企业关键商业决策的解决方案而迅速崛起。

OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。;3.OLTP与OLAP的对比;1.1.4数据仓库的定义与特点;2.数据仓库特点;(2)数据仓库是集成的

最重要的特点。数据仓库中的数据来自各个不同的数据源(操作数据库)。由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据输入到数据仓库之前,必须经历一个集成过程。

对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。

将原始数据结构做一个从面向应用到面向主题的大转变。;(3)数据仓库是稳定的(不可修改的)

数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。

(4)数据仓库是随时间变化的

数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。

而数据库只包含当前数据,即存取某一时间的正确的有效的数据。;(5)数据仓库的数据量很大

大型DW的数据是一个TB(1000GB)级数据量(一般为10GB级DW,相当于一般数据库100MB的100倍)

(6)数据仓库软、硬件要求较高

需要一个巨大的硬件平台

需要一个并行的数据库系统

;1.2数据挖掘的兴起;Why?数据挖掘的社会需求;

所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。

;数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。

1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。

随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用

文档评论(0)

朝兵 + 关注
实名认证
内容提供者

原版文件原创

1亿VIP精品文档

相关文档