Greenplum数据库最佳实践-V1.2.pdf

  1. 1、本文档共103页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Greenplum数据库最佳实践-V1.2

第一章 体系结构 1.1 发展历程 Greenplum 是 2003 年成立的,核心技术团队成员来自各个顶级数据库公司和大规模并行计 算公司的资深软件架构师,Greenplum 数据库软件是业内首创的无共享、大规模并行处理 (massivelyparallel processing (MPP))的数据库软件产品,它包含大规模并行计算技术和数据 库技术必威体育精装版的研发成果:包括无共享/MPP,按列存储数据库,数据库内压缩,MapReduce,永不 停机扩容,多级容错等等。该数据库软件被业界认可为扩展能力最大的分析型(OLAP)数据库软件。 已有 100 多家世界级重大客户采用该软件,这些客户中大多数 Greenplum 数据仓库所管理的数据 量都超过 100TB,其中,全球最大的有 6500TB,中国最大的有 400TB。每一天,全球有数亿级 的用户在直接、间接用到 Greenplum 发明的数据库平台。 Greenplum 数据仓库软件是业界首创将大规模并行计算技术,应用到了数据库软件领域。该 类技术同样应用在 Google 有哪些信誉好的足球投注网站引擎的中。 主要事件参考如下:  2003 年:Greenplum 由Scott Yara 和 Luke Lonergan 成立。  2005 年:Greenplum 数据库第一个版本发布。  2006 年:与 Sun 公司合作,成为其合伙人。  2008 年:Greenplum MapReduce 发布,同年 12 月份进入中国市场,一年多后,Greenplum 正式宣布在中国独立运营。  2010:Greenplum 被 EMC 收购,并被整合到 EMC 的云计算战略中。  2011-2012:Greenplum 社区版发布,Greenplum Chorus 发布并开源。  2013:VMware 和 EMC 联合宣布将成立合资公司 Pivotal,并将Greenplum DB 整合过来。  2014:Greenplum 4.3 发布。 第 1 页共 103 页  2015:10 月 27 日,Pivotal 宣布开源 Greenplum DB,并将代码托管到 github,使用Apache 2 的版权协议。 1.2 体系结构 面对海量数据的处理需求,发展起来的 MPP ShareNothing (海量并行处理+完全无共享)技 术是唯一解决之道,只有无共享的 MPP 并行处理技术才能满足海量数据的性能需求; 我们可以看到过去几十年数据库计算架构的发展历程。早期(70 年代)是 Shared-Everthing 架构,数据库计算和数据访问都在一个单一的 SMP 节点上完成,当数据量到达 TB 级后,这种架构 在数据计算和 I/O 方面都存在很大的瓶颈;随后在 90 年代,一些数据库厂商(以 Oracle RAC 典 型代表)在 SMP 节点的基础上进行改进,将数据库的计算单元分离出来做并行化处理,进而提高系 统的计算能力,但数据访问上还是采用共享方式 Share-Storage,这个方式虽有效的解决了计算方 面的瓶颈,但我们都知道,数据库性能由两个主要因素决定,一个是 CPU 计算能力,另外一个就是 数据从 Disk 上的 I/O 吞吐性能,而计算机技术发展中,CPU 性能的技术发展比磁盘要快的多,因 此 I/O 对于数据库性能来说是更为重要的制约因素,而 Share-storge 没有解决 I/O 性能瓶颈的问 题,当数据量到达 5T~10T 后,这种架构难以满足性能处理的需求;针对老的架构的不足,业界在 90 年代末期(以 Greenplum 典型代表)创新出了 MPP+Sharenothing 架构,采用完全无共享的 并行处理架构,完全避免了集群中各节点在并行处理过程中的 CPU/IO/内存/ 网络等的资源争夺, 第 2 页共 103 页 将 I/O 和 CPU 的能力发挥到极致,为海量数据的处理提供了最大化并行的计算处理架构,满足大 规模数据的处理性能需求。 Greenplum 数据库内部架构参考如下: Master 节点是整个集群的接入点,负责处理客户端请求,并将客户端提交的 SQL 生产查询计 划,优化后分配到 Segment,协调各 Segment 节点

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档