- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘技术概述 数据仓库 参考教材 数据仓库与数据挖掘原理及应用技术 王丽珍等, 科学出版社,2004年 其它参考书 Building the data warehouse,W.H Inmon, 机械工业出版社 2004 The Data Warehouse Toolkit(2ndEdition) R.Kimball 电子工业出版社 2002 Data Mining: Concepts and Techniques. JiaweiHan and MichelineKamber. 机械工业出版社, 2001. 史忠植,知识发现,清华大学出版社,2002 课程主要内容 概述 数据仓库 联机分析处理 数据仓库的设计 数据预处理 维度建模 数据挖掘 聚类 关联规则 分类 概述-数据仓库基本概念 数据仓库技术产生的背景 什么是数据仓库技术 信息技术发展的几个阶段 1960s: 数据采集、数据库创建阶段 集中于原始文件的处理 层次数据库和网状数据库 1970s: 关系数据库管理系统 关系数据模型和关系数据库管理系统 E-R模型、SQL语言、查询处理和优化、OLTP(恢复和并发技术) 1980s: 高级数据库管理系统 面向对象数据库、对象-关系数据库、主动数据库、演绎数据库、模糊数据库、空间数据库、时空数据库、统计数据库 数据挖掘技术 1990s: 数据仓库、联机分析处理和数据挖掘 数据仓库、联机分析处理和数据挖掘, 多媒体数据库, Web数据库、Data Stream 企业信息化建设现状 在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献 各类信息系统大多属于面向事务处理的OLTP系统 信息系统多年运行,积累了大量的数据 数据是一种宝贵的资源,但没有充分发挥作用 管理决策层对数据分析基础平台的需求日益强烈 企业信息化建设提出了更高的要求 市场竞争日益激烈—创造竞争优势 需要及时、准确的做出科学决策 科学决策必须以准确、有效的数据为基础 充分利用现有数据,将它转化为信息 分析人员典型的信息需求 覆盖企业内部信息、合作伙伴信息和市场信息 覆盖综合信息和明细信息 覆盖当前数据和历史数据 高可用性 高质量的数据(一致性、完整性) 支持各种不同的分析方法 数据定义符合业务人员要求 操作型数据和分析型数据的区别 现有数据库系统处理分析型应用存在的问题——数据可信性 数据没有同一时间基准 例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10% 部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15% 算法不同 部门A使用的是旧帐号 部门B使用的是大帐号 多次抽取,扩大了上述两个问题 用抽取程序从数据库/文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。 在实际中经常存在这样 “蜘蛛网”问题 没有统一规划和设计 数据模型不一致 数据定义不一致 数据准确性差,冗余度高 业务流程发生变化 历史数据不统一、不规范 解决方案: 深入、全面、客观的数据源分析建立数据仓库系统 数据可信性(续) 外部数据问题 一位分析员把《华尔街日报》的数据带进系统 另一位将《商业周刊》的数据进入系统 数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源 部门A最初来源于文件XYZ 部门B最初来源于DB ABC 现有数据库系统处理分析型应用存在的问题——从数据到信息 例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。 没有足够的历史数据: 贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的数据。 数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Female 外部数据和非结构化数据 现有数据库系统处理分析型应用存在的问题——生产率 为了生成一个企业报表,必须经过 获得源数据 定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱 把数据加工成报告 要写许多程序,每个程序必须客户化(与客户环境有关) 程序会涉及公司具有的各种技术 由于定位数据困难,检索所要的数据是一件很麻烦的事 完成任务需要很长时间 定位数据+ 获得数据+ 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很长。 数据仓库要解决的基本问题 全局范围内统一数据视图 数据内容 数据的完整性 数据的准确性 数据的一致性 数据组织 面向分析决
您可能关注的文档
最近下载
- 德国服装进口企业90个(带联系人、邮箱等详细信息).doc
- 云南作家协会入会申请表.doc
- 五年级上册数学试题-期末测试卷人教版(含答案).docx VIP
- 专题15 磁场-2020-2024年五年高考物理真题分类汇编(解析版).docx
- 2024年高考评析-新结构-新思想-新导向.pdf VIP
- 2024年全国各地中考语文名著阅读真题汇编(55题有解析有答).doc
- 时序器sh108产品检验报告.pdf VIP
- 储能行业研究框架:新能源周期核心品种,行业最具成长的主线之一.docx VIP
- 中信建投-电力设备行业每周观察-中东光储市场详细梳理.pdf VIP
- 全自动下卸料离心机PGZ1250说明书.pdf
文档评论(0)