云平台存储的全方位监控方案.docx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

云平台存储的全方位监控方案

?

?

云平台如何运维,这是企业信息系统考虑是否上云之前必不可少要决策的因素之一,云平台如何监控,又是云平台运维体系建设的重点问题。云监控服务作为云平台运维体系的重要服务,它可用于收集获取云资源的监控指标或用户自定义的监控指标,探测服务可用性以及针对指标设置警报。使用户全面了解云上的资源使用情况、业务的运行状况和健康度,并及时收到异常报警做出反应,保证信息系统顺畅运行。本议题站在云平台存储的角度,深入解读云监控服务中存储监控和传统环境的存储监控区别,以及由传统环境存储过渡到云平台存储需考虑解决哪些存储监控建设方面的问题。

云平台存储如何实施全方位监控?

社区专家主张邓毓江西农信运维技术经理:本议题由我本人、民生银行科技部工程师白东旭和王向虎、某股份制银行存储架构师曾祥满几位用户专家针对议题下的关键点进行主张,这些主张在经过某农商银行架构师胡海光、某金融科技公司资深集成工程师孙伟光、某金融公司架构师刘艳春几位专家的复议之后,最终形成一定的共识,希望对同行有所参考。

邓毓江西农信运维技术经理:

云监控作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业IT运维成本。

本文中所指的云监控为云平台(公有云或私有云)的性能监视与检测,它能为用户提供一个针对云资源、云服务或者云产品的全方位监控平台。云监控本身也作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业IT运维成本。云平台存储是云平台基础设施的核心基础资源,包括块、文件和对象等一系列存储产品,对用户提供数据存储服务。其架构复杂性及技术难度较云下传统集中式存储有较大提升,因此,云上不同类别的存储产品的精细化监控也变得尤为重要。基于此,本文将以三大知名公有或专/私有云平台存储产品监控体系为例进行分析,旨在帮助读者详细了解云平台存储全方位监控的方向和监控指标体系建设的详细内容。

一、云平台存储全方位监控建设方向

云平台存储全方位监控建设方向应当包括至少以下四个方面:云平台存储基础底座监控、云平台存储产品监控、事件告警平台、多维度图表展示及报表,形成一个完整的云监控服务,其架构如图1所示,下面将一一进行介绍:

图1:云平台存储全方位监控图

1.云平台存储基础底座监控

如今的云平台存储时代分布式架构得到了广泛应用,云平台存储基础底座通过利用大量标准化机器的存储资源聚合构造一个海量存储池,作为数据存储的基石性系统,其上承载了一系列的云平台存储服务。既有要求高吞吐量,I/O能力随集群规模线性增长的“开放存储”,又有要求低时延的“弹性计算”。作为底层平台核心的云平台存储底座必须二者兼顾,同时具备高吞吐量和低时延。因此其技术架构十分复杂,作为基础底座,完备的监控是必备的。主要包括两大类别,一是存储产品集群监控,包括该存储产品所用底座集群下的存储空间、机器信息和健康信息等,健康信息涉及集群元数据节点和数据节点的整体状态、水位、磁盘、集群日志等信息;二是集群节点监控,包括节点基础监控,如CPU、内存、进程、磁盘、缓存等,以及节点级状态、水位、磁盘、硬件、节点日志等信息。

2.云平台存储产品监控

云监控针对云平台存储产品的监控,需提供自动、准确且几乎实时地采集基础监控指标和存储产品监控指标数据的功能。能够为用户实时地了解所拥有的存储服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题。云平台存储服务监控通过监控面板支持通过自定义的方式建立丰富多样的图表查看产品的指标数据,并可配置告警,还能通过API拉取指标数据,进行进一步使用和分析。对用户而言,主要关注以下三类服务监控指标数据:

1)用户计量数据监控:反映用户层面的资源使用状况和计量信息。例如存储产品已用/总空间、吞吐量、流入流出流量或吞吐量、带宽、请求数或IOPS等。

2)服务性能数据监控:反映用户在使用服务时的体验感信息。主要是请求延时,它是衡量服务性能的重要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求和服务性能至关重要,而且请求延时包含网络延时和服务器延时两大部分,通过监端到端延时和服务器延时,能够快速帮助用户定位性能问题。

3)服务水平数据监控:反映存储服务的稳定性以及用户的使用健康状态信息。例如服务可用性、内部错误数、返回错误情况、日志告警等。

3.事件告警平台

云监控事件告警平台要求能够为用户提供及时、个性化的事件及告警服务,统一适用于云上各类计算、存储和网络的基础底座及云产品监控。

1)事件服务:提供了事件类型数据上报和查询功能。方便用户将云上的各类重要

文档评论(0)

木槿流年 + 关注
实名认证
内容提供者

悟已往之不谏,知来者之可追

1亿VIP精品文档

相关文档