第1章 数据仓库的概念与体系结构.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 第1章 数据仓库的概念与体系结构 背景1 企业信息化程度越来越高,产生的历史数据越来越多 常用的数据处理方法: 将已失效的历史数据简单删除,减少磁盘空间占用 对历史数据通过介质进行备份后删除,可按需查看 建立一个数据仓库系统,对业务系统及其他档案系统中有分析价值的数据进行存储。针对这些数据建立分析模型,从中挖掘出符合规律的知识并用于未来的预测和决策中。 背景2 基于web的应用越来越普及,各种网站积累了大量的点击流数据 访问者的访问时间、IP地址、经常访问的页面和内容、在网页上停留的时间等; 客户的交易、付款、产品利润、查询等数据 将数据整合到数据仓库 通过分析可以进一步了解访问者的行为偏好,发现带普遍性的行为规律,改进页面内容和风格 1.1 数据仓库的概念、特点与组成 数据仓库的概念 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持 1.1 数据仓库的概念、特点与组成 数据仓库的特点: 面向主题; 集成的; 相对稳定的; 反映历史变化。 1.1 数据仓库的概念、特点与组成 数据仓库的特点: 面向主题; 集成的; 相对稳定的; 反映历史变化。 1.1 数据仓库的概念、特点与组成 数据仓库的特点: 面向主题; 集成的; 相对稳定的; 反映历史变化。 1.1 数据仓库的概念、特点与组成 数据仓库的特点: 面向主题; 集成的; 相对稳定的; 反映历史变化。 1.1 数据仓库的概念、特点与组成 数据仓库的组成3-1: 1数据仓库数据库:DW核心,存放数据,提供海量数据支持和快速检索 2数据抽取工具:把数据从各种数据环境抽取出来,进行必要的转化、整理,再存放到DW中。可运用高级语言编写的程序、操作系统脚本或批命令脚本、SQL脚本等方式访问不同的数据环境,通常包括: 删除对决策分析没有意义的数据 转换到统一的数据名称和定义 计算统计和衍生数据 填补缺失数据 统一不同的数据定义方式 1.1 数据仓库的概念、特点与组成 数据仓库的组成3-2: 3元数据:是描述DW内数据的结构和建立方法的数据。是DW运行和维护的核心内容。分为技术元数据与业务元数据: 技术元数据:DW设计和管理人员使用,包括:数据源信息、数据转换的描述、DW内对象和数据结构的定义、数据清理和数据更新时使用的规则;源数据到目的数据映射表、用户访问权限、数据备份和导入、信息发布历史记录 业务元数据:从单位业务的角度描述DW的元数据,如业务主题描述,即业务主题包含的数据、查询和报表等信息 1.1 数据仓库的概念、特点与组成 数据仓库的组成3-3: 4访问工具:如数据查询和报表工具、应用开发工具、数据挖掘工具和数据分析工具等 5数据集市(Data Marts):为特定的应用目的,从DW中独立出来的一部分数据,也称部门数据或主题数据。DW实施过程一般可从一个部门的数据集市着手,再逐步用几个数据集市组成一个完整的数据仓库。 6数据仓库管理:包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理与更新、数据仓库使用状态的检测与审计、数据复制和删除、数据分割与分发、数据备份与恢复、数据存储管理等。 7信息发布系统:把DW中数据发布给不同的地点或用户。当前最流行的是基于Web的方式。 1.2 数据挖掘的概念与方法 数据挖掘的概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD) 1.2 数据挖掘的概念与方法 数据挖掘的方法: 直接数据挖掘:利用可用数据建立一个模型,使用这个模型对剩余的数据进行描述,如Classification、Estimation和Prediction等 间接数据挖掘:没有选出某一具体的变量并用模型进行描述,而是在所有变量中建立起某种关系,如相关性分析、关联规则(Association Rule)、聚类(Clustering)、描述和可视化(Description and visualization)及复杂数据类型的挖掘,如文本、网页、图形图像、音视频和空间数据等 1.2 数据挖掘的概念与方法 数据仓库与数据挖掘的关系 若将数据仓库(Data Warehouse)比作矿井,那么数据挖掘(Data Mining)就是深入矿井采矿的工作 数据挖掘是从数据仓库中找出有用信息的一种过程与技术 1.3 数据仓库的技术、方法与产品 数据仓库技术是为了有效的把操作型数据集成到

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档