greenplum维护.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
greenplum维护

V0.2GREEN PLUM 数据库日常维护手册第一章GP服务器每日例行检查1.1、检查时间0)早上起床后(建议值班人员操作,如果无值班条件可以省略,有条件的可以适当提前)1)早上上班后2)中午午休前3)中午午休后4)晚上下班前5)晚上休息前(建议值班人员操作,如果无值班条件可以省略)1.2、检查方法运行gm监控程序,运行方式为 ./gm主监控界面如下,如果出现非正常显示在日检查表“GM程序运行正常”一栏填写实际情况,否则打勾即可。1.3、检查内容1.3.1各服务器硬盘使用情况主要看硬盘使用占比boot、data、dev、shm、root。对于ETL服务器,建议不要超过硬盘空间的85%;对于greenplum节点,建议不要超过硬盘空间的75%,以免影响greenplum数据库的效率。将数据盘中占用最高的数值填写在日检查表“数据盘最高占用“一栏。超限时要及时处理或向总部系统集成求助。1.3.2各服务器硬盘读写情况主要看各个segment数据节点读写情况R1K/S、W1K/S、R2K/S、W2K/S应该大致相同,如不同,需要检测不同的原因,一般可能是数据倾斜的问题。对于其他原因,需要根据具体情况进行检测。硬盘读写速度的大致平均数(前读后写中间加/符)填写在日检查表“IO速度率”一栏。1.3.3各服务器内存使用情况需要根据具体情况,如发现内存使用异常(MemIdl明显低于其他机器),则需执行top命令找出异常进程进行分析。SWAP平均空闲值填写在日检查表“swap空闲”一栏;内存空闲值的大致平均数填写在日检查表“MemIdl”一栏。1.3.4各服务器CPU使用情况需要根据具体情况,如发现CPU使用异常(CpuIdl明显低于其他机器),则需执行top命令找出异常进程进行分析。CPU空闲的大致平均数填写在日检查表“CpuIdl”一栏。1.3.5各服务器IOWAIT情况需要根据具体情况,如发现IOWAIT异常(IOWait明显高于其他机器,或所有机器都很高超过15%),则需执行top命令找出异常进程进行分析。IOWAIT的大致平均数填写在日检查表“IOWait”一栏。1.3.6查看RAID硬盘的状态即Write Policy参数,正常状态显示为WB即Write Back状态。全部为WB时在日检查表“WritePolicy”一栏打勾,有其他值时标注机器名和状态。1.3.7查看RAID卡电池属性即BATTS属性,正常状态显示为Ready状态。全部为Ready时在日检查表“Batts”一栏打勾,有其他值时标注机器名和状态。1.3.8查看greenplum镜像状态即Mirror alert状态。如果正常则没有显示,这时可在日检查表“Mirror Alert”一栏打勾,否则按实际界面报告情况填写。如果出现镜像丢失,则会出现异常状态。需要根据实际情况,对丢失的镜像及时进行修复,修复时记得要填写维护日志,一旦涉及到修改系统参数,务必先备份并在维护日志中记载备份文件名。一般修复镜像需要在系统较空闲时进行,最好是没有任务时进行,必要时可以将/data/master/gpseg-1/pg_hba.conf中的相应行注释掉禁止可能连接数据库的终端连接数据库,修改后执行gpstop –u使临时配置生效,但一定要记得在修复后恢复配置,并运行gpstop –u使原配置生效。修复指令根据镜像告警不同也有所不同,当告警信息如图所示时需要执行gprecoverseg修复。如果告警信息如下图所示,需要执行先gprecoverseg修复,完成后一定要先重启数据库,再执gprecoverseg –r修复,目前已有三套数据库因为没有重启后再-r修复而报废,请务必注意。如果告警信息如下图所示,需要执行gpinitstandby -n修复,注意修复过程会重启数据库,务必确认数据库中没有数据加工任务在运行,确实可以重启时运行此指令, 这个指令花费时间根据数据库的系统表大小会有很大差别。可以进入到如下目录查看:只有base和global的大小是相关的,其他无所谓1.3.9查看是否存在WAITING操作在running c Sql区域有一个列正常是空白的,如图所示的第4个列,如果这个列不是空白而是出现WAITING,就要及时与总部技术支持联系查找原因了。空白时在日检查表“WAITING”一栏打勾,否则打X。1.3.10查看硬件告警正常情况下这告警区域(在最下方区域)是空白的,日检查表“System Alertlog”一栏打勾,否则将告警摘抄在这一栏。如果出现告警需要确认故障,并及时报修。如果不能确认或不会确认可以申请公司总部的技术支持。或者告警很多时,可以请总部支持清除日志。下图所示的故障发生在一次重启机器后,故障信息是电池充电由于温度过高的原因而中止。这是一个可以忽略的故障,清除日志即可

文档评论(0)

70后老哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档