- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hbase运维参考手册(项目实战)概要1
Hbase日常运维
监控Hbase运行状况
操作系统
IO
群集网络IO,磁盘IO,HDFS IO
IO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。
2.正在执行mapreduce作业
可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据:
Io wait
磁盘IO对集群的影响比较大,如果io wait时间过长需检查系统或磁盘是否有异常。通常IO增加时io wait也会增加,现在FMS的机器正常情况io wait在50ms以下
跟主机相关的指标可以在CDH前台左上角先点“主机”选项卡然后选要查看的主机:
CPU
如果CPU占用过高有可能是异常情况引起集群资源消耗,可以通过其他指标和日志来查看集群正在做什么。
内存
JAVA
GC 情况
regionserver长时间GC会影响集群性能并且有可能会造成假死的情况
重要的hbase指标
region情况
需要检查
region的数量(总数和每台regionserver上的region数)
region的大小
如果发现异常可以通过手动merge region和手动分配region来调整
从CDH前台和master前台以及regionServer的前台都可以看到region数量,如master前台:
在region server前台可以看到storeFile大小:
缓存命中率
缓存命中率对hbase的读有很大的影响,可以观察这个指标来调整blockcache的大小。
从regionserver web页面可以看到block cache的情况:
读写请求数
通过读写请求数可以大概看出每台regionServer的压力,如果压力分布不均匀,应该检查regionServer上的region以及其它指标
master web上可以看到所以regionServer的读写请求数
regionServer上可以看到每个region的读写请求数
压缩队列
压缩队列存放的是正在压缩的storefile,compact操作对hbase的读写影响较大
通过cdh的hbase图表库可以看到集群总的压缩队列大小:
可以通过CDH的hbase主页查询compact日志:
点击“压缩”进入:
刷新队列
单个region的memstore写满(128M)或regionServer上所有region的memstore大小总合达到门限时会进行flush操作,flush操作会产生新的storeFile
同样可以通过CDH的hbase前台查看flush日志:
rpc调用队列
没有及时处理的rpc操作会放入rpc操作队列,从rpc队列可以看出服务器处理请求的情况
文件块保存在本地的百分比
datanode和regionserver一般都部署在同一台机器上,所以region server管理的region会优先存储在本地,以节省网络开销。如果block locality较低有可能是刚做过balance或刚重启,经过compact之后region的数据都会写到当前机器的datanode,block locality也会慢慢达到接近100:
内存使用情况
内存使用情况,主要可以看used Heap和memstore的大小,如果usedHeadp一直超过80-85%以上是比较危险的
memstore很小或很大也不正常
从region Server的前台可以看到:
slowHLogAppendCount
写HLog过慢(1s)的操作次数,这个指标可以作为HDFS状态好坏的判断
在region Server前台查看:
CDH检查日志
CDH有强大的系统事件和日志有哪些信誉好的足球投注网站功能,每一个服务(如:hadoop,hbase)的主页都提供了事件和告警的查询,日常运维除了CDH主页的告警外,需要查看这些事件以发现潜在的问题:
选择“事件有哪些信誉好的足球投注网站”中的标签(“警报”、“严重”)可以进入相关的事件日志,如“严重”:
检查数据一致性以及修复方法
数据一致性是指:
每个region都被正确的分配到一台regionserver上,并且region的位置信息及状态都是正确的。
每个table都是完整的,每一个可能的rowkey 都可以对应到唯一的一个region.
检查
hbase hbck
注:有时集群正在启动或region正在做split操作,会造成数据不一致
hbase hbck -details
加上–details会列出更详细的检查信息,包括所以正在进行的split任务
hbase hbck Table1 Table2
如果只想检查指定的表,可以在命令后面加上表名,这样可以节省操作时间
CDH
通过CDH提供的检查报告也可以看到hbck的结果,日常只需要看
文档评论(0)