- 1、本文档共110页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 田凤占 神州数码 培训教师 tianfengzhan@ 数据仓库与数据挖掘 第一部分:数据仓库与OLAP技术 第二部分:数据挖掘技术 第三部分:实验 动因 海量数据 自动化的数据采集工具 成熟的数据库技术 我们淹没在数据之中,但渴求知识! 解决方案:数据仓储和数据挖掘 数据仓库和OLAP(在线分析处理)技术 抽取有趣的知识(规则、规律、模式、约束等) “尿布和啤酒” 一个大型零售商:沃尔玛超市 数据仓库:海量数据 (Terabytes) 购货篮分析 ---- 数据挖掘技术 哪些商品经常在一起售出? “尿布和啤酒” 一种出乎意料的关联关系:尿布和啤酒 解释:年轻的父亲,周末买尿布,顺便买啤酒,在家看球赛。 促销策略:将啤酒摆在尿布货栏的旁边 啤酒的销售量明显上升。 课程主要内容 一、数据仓库概述 二、维数据模型与OLAP技术 三、数据仓库建造方法和过程 四、数据仓库实验 五、数据挖掘概述与关联规则 六、OLAP分析实验 七、分类和预测 八、数据挖掘实验(1) 九、聚类 十、数据挖掘实验(2) 一、数据仓库概述 什么是数据仓库? 数据仓库中的基本概念 数据仓库的结构 数据仓库的应用领域和案例分析 数据仓库产品 Web数据仓库——WHOWEDA 数据库技术的发展 80年代早期:OLTP,MIS/DSS,提出了数据仓库的思想,以IBM的“Information Warehouse”为代表; 80年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多的注意; 90年代:以W. H. Inmon为代表数据仓库(Data Warehouse)的兴起,OLAP,DM,OLAM。 数据仓库站点 数据仓库之路(www.D) 业务系统不适宜DSS应用 事务处理和分析处理的性能要求和特性不同 事务处理对数据的存取操作频率高而每次操作处理的时间短; 在分析处理环境中,某个DSS应用程序可能需要连续几个小时,会消耗大量的系统资源。 数据集成问题 历史数据问题 数据的综合问题(更高粒度) 定义1 数据仓库是一种信息系统,它能给一个组织或机构提供商务智能(business intelligence)以支持管理决策的制定。 数据仓库是面向主题的 典型的主题域:客户;产品;交易;帐目 主题域以一组相关表来具体实现 一个主题域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…) 相关表通过公共的键码联系起来(如:顾客标识符Customer ID) 每个键码都有时间元素(每月累积;日期…) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) example 数据仓库与传统数据库的区别 OLTP和OLAP的区别 用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理 OLAP是面向市场的,用于数据分析 数据内容: OLTP系统管理当前数据. OLAP系统管理大量历史数据,提供汇总和聚集机制。 OLTP和OLAP的区别 数据库设计: OLTP采用实体-关系(ER)模型和面向应用的数据库设计. OLAP采用星型或雪花模型和面向主题的数据库设计. 视图: OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据。 OLAP则相反. 访问模式: OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制. OLAP系统的访问大部分是只读操作. 数据仓库的独立物理存储 高性能 RDBMS: 为OLTP而优化 访问方法,索引技术,并发控制,备份恢复 数据仓库:为OLAP而优化 复杂的OLAP查询,多维视图,合计表 数据问题 缺失数据: 历史数据 数据不一致性: 数据表示、编码以及格式的不一致 数据合计: 聚集,汇总 一、数据仓库概述 什么是数据仓库? 数据仓库中的基本概念 数据仓库的结构 数据仓库的应用领域和案例分析 数据仓库产品 Web数据仓库——WHOWEDA 数据仓库中的几个重要概念 元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越大。 分割:结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。 ETL:ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 元数据 元数据:数据仓库的核心 关于数据的数据,可理解为数据仓库的数据字典 存储数据模型、定义数据结构、转换规则、仓库结构和
您可能关注的文档
- 突破企业发展瓶颈课程.ppt
- 第三章 第三讲 3.3 循环语句.ppt
- 怎样做好服务工作.ppt
- adams学习交流.ppt
- 学业水平评价.ppt
- 公共课-第3章 学习理论.ppt
- 新目标 初一unit第五课时.ppt
- 工业催化第四章(游)[1].ppt
- 脑血管疾病-2010.ppt
- MBA财务管理总论.ppt
- 教科版(2017秋)科学二年级上册2.6 做一顶帽子 教学设计.docx
- 河北高频考点专训四 质量守恒定律的应用教学设计---2024-2025学年九年级化学人教版(2024)上册.docx
- 大单元教学【核心素养目标】6.3 24时计时法教学设计 人教版三年级下册.docx
- 河南省商城县李集中学2023-2024学年下学期九年级历史中考模拟八(讲评教学设计).docx
- 第18章 第25课时 正方形的性质2023-2024学年八年级下册数学课时分层作业教学设计( 人教版).docx
- Module 8 模块测试 教学设计 2024-2025学年英语外研版八年级上册.docx
- 2024-2025学年小学数学五年级下册浙教版教学设计合集.docx
- 2024-2025学年小学劳动四年级下册人民版《劳动》(2022)教学设计合集.docx
- 2024-2025学年小学数学三年级上册冀教版(2024)教学设计合集.docx
- 2024-2025学年高中生物学必修1《分子与细胞》人教版教学设计合集.docx
文档评论(0)