网站大量收购独家精品文档,联系QQ:2885784924

Greenplum 数据库最佳实践 (一).pdfVIP

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

❖介绍

本文介绍PivotalGreenplumDatabase数据库(以下简称:Greenplum

数据库,或GPDB)的最佳实践。

最佳实践是指能持续产生比其他法更好结果的法或者技术,它来自于

实战阅历,并被证明了遵循这些法可以获得牢靠的预期结果。本最佳实

践旨在通过利用全部可能的学问和技术为正确运用GPDB供应有效参考。

本文不是在教您如何运用Grccnplum数据库的功能,而是帮助您在设计、

实现和运用Greenplum数据库时了解须要遵循哪些最佳实践。关于如何

运用和实现具体的Greenplum数据库特性,请参考上的Greenplum

数据库帮助文档以与上的Sandbox和实践指南。

本文H的不是要涵盖整个产品或者产品特性,而是概述GPDB实践中最

重要的因素。本文不涉与依靠于GPDB具体特性的边缘用例,后者须要

精通数据库特性和您的环境,包括SQL访问、查询执行、并发、负载和

其他因素。

通过驾驭这些最佳实践学问,会增加GPDB集群在维护、支持、性能和

可扩展性等面的胜利率。

第一章最佳实践概述

本部分概述了Greenplum数据库最佳实践所涉与的概念与要点。

数据模型

GPDB是一个基于大规模并行处理(MPP)和无共享架构的分析型数据库。

这种数据库的数据模式与高度规范化的事务性SMP数据库显著不同。通

过运用非规范化数据库模式,例如具有大事实表和小维度表的星型或者雪

花模式,GPDB在处理MPP分析型业务时表现优异。

跨表关联(JOI)时字段运用相同的数据类型。

详见数据库模式设计(后续章节)

堆存储和追加优化存储(Append-Optimized,下称AO)

若表和分区表须要进行迭代式的批处理或者频繁执行单个UPDATE、

DELETE或ISERT操作,运用堆存储。

若表和分区表须要并发执行UPDATE、DELETE或ISERT操作,运用

堆存储。

若表和分区表在数据初始加载后更新不频繁,且仅以批处理式插入数据,

则运用AO存储。

不要又寸AO表执行单个ISERT、UPDATE或DELETE操作。

不要对AO表执行并发批量UPDATE或DELETE操作,但可以并发执行

批量ISERT操作。

详见堆存储和AO存储后(续章忖

行存储和列存储

若数据须要常常更新或者插入,则运用行存储。

若须要同时访问一个表的许多字段,则运用行存储。

对于通用或者混合型业务,建议运用行存储。

若查询访问的字段数目较少,或者仅在少量字段上进行聚合操作,则运用

列存储。

若仅常常修改表的某一字段而不修改其他字段,则运用列存储。

详见行存储和列存储后(续章节)

压缩

对于大AO表和分区表运用压缩,以提高系统I/O。

在字段级别配置压缩。

考虑压缩比和压缩性能之间平衡。

详见压缩后(续章节)

分布

为全部表定义分布策略:要么定义分布键,要么运用随机分布。不要运用

缺省分布方式。

优先选择可匀称分布数据单个字段做分布键。

不要选择常常用于WHERE子句字段做分布键。

不要运用日期或时间字段做分布键。

分布键和分区键不要运用同一字段。

对常常执行JOI操作大表,优先考虑运用关联字段做分布键,尽量做

到本地关联,以提高性能。

数据初始加载后或者每次增量加载后,检查数据分布是否匀称。

尽可能避开数据倾斜。

详见分布后(续章节)

内存管理

设置vm.overcommit_memory为2

不要为操作系统页设置过大值

运用gp_vmem_protectjimit设置单个节点数据库(Segment

Database)可以为全部查询安排最大内存量。

不要设置过高gp_vmem

文档评论(0)

微传科技 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体唐山市微传科技有限公司
IP属地河北
统一社会信用代码/组织机构代码
91130281MA0DTHX11W

1亿VIP精品文档

相关文档