- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据仓库数据挖掘》(演示稿)第4章
复旦大学 软件学院2004.04 第4章 数据仓库系统的体系结构与设计方法 数据仓库系统的体系结构 分布式对象技术 监控器的设计 转换器的设计 集成器的设计 元数据管理器的设计 数据仓库系统的体系结构 数据仓库系统的体系结构 源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML文档等。 数据仓库管理系统: 元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。 数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。 数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。 数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。 数据仓库系统的体系结构 数据仓库前端工具集 查询/报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。 OLAP工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。 数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。 前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。 数据仓库:在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。 分布式对象技术 随着Internet的广泛应用,将应用扩展到局域网、广域网甚至Internet上已成为用户的普遍需求,分布式计算成了新的热点。 分布式计算系统又称为中间件。从层次上看,它处于系统的中间层;从功能上看,向下它可以传递和处理上层用户的各种请求,向上它可以屏蔽下层的实现细节,提供各种服务。因此,分布式计算系统起到了承上启下的作用,为用户构造分布式应用系统提供强有力的支持。 分布式对象概述 程序设计方法经历了多次变革:从最初的功能分解法,到结构化程序设计方法,再到至今仍在广泛使用的面向对象程序设计方法。 在80年代中期,国际标准化组织ISO推出了RPC(Remote Process Call,远程过程调用)标准,极大地推动了分布式处理技术的规范化的标准化。到1992年,开放软件基金会OSF颁布了DCE(Distributed Computing Environment,分布计算环境)标准。在这个标准中,它不仅吸收了RPC作为其远程调用的方式,而且对分布处理进行了抽象定义,是分布式计算技术发展过程中的一个里程碑。 随着应用系统对可扩展性和可重用性的要求不断提高,面向对象的分析、设计和编程技术得到了广泛的应用。将面向对象的思想应用到分布式环境中,提出了分布式对象的概念。 分布式对象的代表性观点 组件对象是软件的基本量子。它具有一定的功能,可插用,同时又是要维护的。分布式对象则是分布式环境中的组件对象,它封装了设计决策,并作为一个独立的单元处于分布式环境中。 分布式对象是具有特定功能的,能够跨越进程的边界、实现网络、语言、应用程序、开发工具和操作系统的”即插即用”的独立对象。 分布式对象是指任何可被分离出来,具有标准化的,可重用的公开接口的软件。 分布式对象通过接口对外提供服务。对象与对象之间,对象与客户之间同时通过接口进行交互。因此分布式对象一旦发布,它只能通过预定义的接口来提供合理的、一致的服务。这种接口定义的稳定性使客户应用开发人员能够构造出稳定的应用。一个分布式对象可以实现多个接口,同时一个特定的接口也可以被多个分布式对象来实现。除此之外,分布式对象还提供了对象位置的透明性,也就是说一台机器上的应用可以透明地访问其他机器上的分布式对象。 分布式对象的工业标准 分布式对象的两种工业标准: COM/DCOM/COM+:Microsoft制定的以Windows为中心的开发环境。 CORBA(Common Object Request Broker Architecture):由700多个厂商共同提倡的,公共对象请求代理体系结构,是平台中立的分布式技术,CORBA能够执行于Windows,UNIX以及Linux等操作系统之中,但是目前成熟产品很少,并且支持的厂商不是十分普及。 根据这两种分布式技术演进而产生的分布式对象技术:例如EJB(Enterprise JavaBean)等。 基于分布式对象的程序设计方法 基于分布式对象的程序设计方法继承并发展了面向对象程序设计方法。它将对象技术应用于系统设计,对向对象程序设计的实现过程作了进一步抽象。 分布式
文档评论(0)