- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库概念的简单理解.
数据仓库概念的简单理解
?
一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。如下图所示:
?
数据源:
是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;
数据的存储与管理:
是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。
OLAP服务器:
对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具与应用:
前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。?
集线器与车轮状结构的企业级数据仓库 ?
这种结构也称为“Hub and Spoke”,这是因为中央数据库汇集了来自各业务处理系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个Hub (集线器);而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像Spoke(车轮辐条)一样。 “Hub and Spoke”结构解决了企业内统一数据存储模型的问题,但从实际使用的角度来看仍有比较严重的缺陷:一是业务人员对信息的访问非常不方便,很难进行跨数据集市或跨部门的信息分析;另一个问题是每个数据集市都需要相应的软硬件投入,当数据集市增加时,系统整体投资迅速增加,同时管理的复杂性也随之增加。这些都意味着巨大的整体拥有成本TCO(Total Cost of Ownership)。
为什么不直接访问中央数据仓库而非要设计一个数据集市层呢?主要原因在于当中央数据库保存越来越多的数据、并发用户越来越多时,一般的数据库引擎无法承担这样的负载,只好把它们分解到不同的数据集市。对于“Hub and Spoke”结构的数据仓库, Gartner Group也认为,“数据仓库的 Hub and Spoke结构,回避了DBMS技术中的弱点,无法提供适当的业务价值来平衡投资成本的显著增加”,“之所以产生这种趋势,是由于对大多数DBMS产品而言,支持复杂的数据模型和并发查询负载都是极大的挑战”。?
集中式企业级数据仓库
第二种企业级数据仓库的架构是集中式的,这解决了“Hub and Spoke”结构中存在的诸多问题,是一种比较理想的企业级数据仓库系统架构,能够为企业带来真正的业务价值与回报。但由于把详细数据分析、部分的数据转换与清洗等复杂处理均集中在中央数据仓库,从而给作为数据仓库引擎的RDBMS和相应的服务器带来了极大的挑战。选择这种数据仓库基础平台的基本要求是: ?
1、线性扩展能力。原始数据对任何一个数据仓库来说,都是最主要的负载之一。随着数据量的增长,系统性能会逐渐下降。维持合理的业务查询响应时间,要求数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力。一些系统的扩展能力非常有限,当数据量增长到一定规模时(比如TB级以上),就很难满足日常的业务分析要求了,因而不得不把数据分离到多个小规模的数据集市,形成所谓的“Hub and Spoke”结构。
2、并行处理能力。许多业务查询与分析都是动态的,数据库传统的索引技术对动态分析和模糊查询的帮助不大。系统只有具有非常好的并行处理能力,才能满足复杂的、动态的分析需求,并且承担比较复杂的数据转换与清洗工作。
3、简单的系统管理。对于大型的数据仓库应用系统而言,如何能有效而简单地进行系统管理是非常重要的。特别是当数据量不断扩大时,如果没有一种有效而且简单的系统管理措施,那么系统的运行费用将会很高。
文档评论(0)