网站大量收购闲置独家精品文档,联系QQ:2885784924

数据仓库初稿(第二版)3.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
杭州斯凯网络科技有限公司 杭州斯凯网络科技有限公司 数据仓库 顾 安 宁 * 杭州斯凯网络科技有限公司 * 内容 数据仓库一些特点 数据仓库的架构 Oracle RAC架构 GreenPlum架构 MapReduce的概念 架构比较 风险评估 * 杭州斯凯网络科技有限公司 * 数据仓库的目前的现状 * 杭州斯凯网络科技有限公司 * 软件架构 硬件架构 硬软架构又可以分成封闭式和开放式。封闭式硬件架构代表厂商有teradata,其硬件是专属的,必须使用特殊的硬件才能运行。开放式硬件架构的代表有oracle,可以运行在各种硬件上,不过开放和封闭之间的界限也逐步的融合。 数据仓库的目前的现状 * 杭州斯凯网络科技有限公司 * Greenplum在这两方面取长补短,所提供的该公司的旗舰产品——Greenplum数据引擎就是特别为支持新型数据仓库和大规模分析处理而设计开发的,可以同时支持SQL和MapReduce技术。Greenplum数据引擎对有PB量级数据的大型公司提供数据处理能力。基于Greenplum数据引擎的解决方案的核心优势在于可将原来长达数小时甚至数天的运算时间缩短为几分钟。 数据仓库的软件架构 数据仓库的软件架构选择更加丰富 数据库软件 ETL软件 展现软件 数据挖掘软件 每一种类型里面都具备非常多的选择。 * 杭州斯凯网络科技有限公司 * ETL约占整个项目的70% * 杭州斯凯网络科技有限公司 * ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。   ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%, 数据仓库的架构设计一些考虑因素 * 杭州斯凯网络科技有限公司 * 1.成本。成本永远是企业关心的一个核心问题,特别在如今经济寒冬,更是如此。 2.效率。能否高效的处理海量的数据是一个基础要素,搞数据仓库的都知道,数据量永远是一个经常被拿出来讨论的话题。 3.线性扩展。能支持线性扩展的系统在计划支撑多年的系统中特别重要,可以非常方便的做出年度预算。 4.协同工作。解决多人协同开发问题。 数据仓库的架构设计一些考虑因素 * 杭州斯凯网络科技有限公司 * 5.调度。能否很方便的一目了然的看到整体调度,站在一个非常高的高度来管理各种数据流。 6.兼容性。能否兼容各种异构数据。 7.准确的监控系统。 8.高效的开发框架。 数据仓库的架构类型 * 杭州斯凯网络科技有限公司 * Oracle数据仓库的架构 * 杭州斯凯网络科技有限公司 * GreenPlum数据仓库的架构 * 杭州斯凯网络科技有限公司 * GreenPlum数据仓库的架构 * 杭州斯凯网络科技有限公司 * MapReduce 概念 * 杭州斯凯网络科技有限公司 * MapReduce是一种编程模型(并不是google自己开发的编程工具),用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(化简),和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。    当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 MapReduce 映射概念 * 杭州斯凯网络科技有限公司 * 简单说来,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如前面的例子里,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函数,用来修正这个错误。)。 事实上,每个元素都是被独立操作的,而原始列表没有被更改,因为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。 MapReduce 化简概念 * 杭州斯凯网络科技有限公司 * 而化简操作指的是对一个列表的元素进行适当的合并(继续看前面的例子,如果有人想知道班级的平均分该怎么做?他可以定义

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档