- 1、本文档共103页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Greenplum数据库最佳实践-V1.2
第一章 体系结构
1.1 发展历程
Greenplum 是 2003 年成立的,核心技术团队成员来自各个顶级数据库公司和大规模并行计
算公司的资深软件架构师,Greenplum 数据库软件是业内首创的无共享、大规模并行处理
(massivelyparallel processing (MPP))的数据库软件产品,它包含大规模并行计算技术和数据
库技术必威体育精装版的研发成果:包括无共享/MPP,按列存储数据库,数据库内压缩,MapReduce,永不
停机扩容,多级容错等等。该数据库软件被业界认可为扩展能力最大的分析型(OLAP)数据库软件。
已有 100 多家世界级重大客户采用该软件,这些客户中大多数 Greenplum 数据仓库所管理的数据
量都超过 100TB,其中,全球最大的有 6500TB,中国最大的有 400TB。每一天,全球有数亿级
的用户在直接、间接用到 Greenplum 发明的数据库平台。
Greenplum 数据仓库软件是业界首创将大规模并行计算技术,应用到了数据库软件领域。该
类技术同样应用在 Google 有哪些信誉好的足球投注网站引擎的中。
主要事件参考如下:
2003 年:Greenplum 由Scott Yara 和 Luke Lonergan 成立。
2005 年:Greenplum 数据库第一个版本发布。
2006 年:与 Sun 公司合作,成为其合伙人。
2008 年:Greenplum MapReduce 发布,同年 12 月份进入中国市场,一年多后,Greenplum
正式宣布在中国独立运营。
2010:Greenplum 被 EMC 收购,并被整合到 EMC 的云计算战略中。
2011-2012:Greenplum 社区版发布,Greenplum Chorus 发布并开源。
2013:VMware 和 EMC 联合宣布将成立合资公司 Pivotal,并将Greenplum DB 整合过来。
2014:Greenplum 4.3 发布。
第 1 页共 103 页
2015:10 月 27 日,Pivotal 宣布开源 Greenplum DB,并将代码托管到 github,使用Apache
2 的版权协议。
1.2 体系结构
面对海量数据的处理需求,发展起来的 MPP ShareNothing (海量并行处理+完全无共享)技
术是唯一解决之道,只有无共享的 MPP 并行处理技术才能满足海量数据的性能需求;
我们可以看到过去几十年数据库计算架构的发展历程。早期(70 年代)是 Shared-Everthing
架构,数据库计算和数据访问都在一个单一的 SMP 节点上完成,当数据量到达 TB 级后,这种架构
在数据计算和 I/O 方面都存在很大的瓶颈;随后在 90 年代,一些数据库厂商(以 Oracle RAC 典
型代表)在 SMP 节点的基础上进行改进,将数据库的计算单元分离出来做并行化处理,进而提高系
统的计算能力,但数据访问上还是采用共享方式 Share-Storage,这个方式虽有效的解决了计算方
面的瓶颈,但我们都知道,数据库性能由两个主要因素决定,一个是 CPU 计算能力,另外一个就是
数据从 Disk 上的 I/O 吞吐性能,而计算机技术发展中,CPU 性能的技术发展比磁盘要快的多,因
此 I/O 对于数据库性能来说是更为重要的制约因素,而 Share-storge 没有解决 I/O 性能瓶颈的问
题,当数据量到达 5T~10T 后,这种架构难以满足性能处理的需求;针对老的架构的不足,业界在
90 年代末期(以 Greenplum 典型代表)创新出了 MPP+Sharenothing 架构,采用完全无共享的
并行处理架构,完全避免了集群中各节点在并行处理过程中的 CPU/IO/内存/ 网络等的资源争夺,
第 2 页共 103 页
将 I/O 和 CPU 的能力发挥到极致,为海量数据的处理提供了最大化并行的计算处理架构,满足大
规模数据的处理性能需求。
Greenplum 数据库内部架构参考如下:
Master 节点是整个集群的接入点,负责处理客户端请求,并将客户端提交的 SQL 生产查询计
划,优化后分配到 Segment,协调各 Segment 节点
文档评论(0)