AIGC助力大规模对象存储服务OSS的能效提升-2024.07-17正式版.ppt

AIGC助力大规模对象存储服务OSS的能效提升-2024.07-17正式版.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AIGC助力大规模对象存储服务OSS阿里巴巴资深技术专家对象存储负责人罗

大规模对象存储服务OSS在开发运维中的挑战和目标挑战大规模海量存储量巨量请求X万亿/天多租户阿里云400万用户面对巨大挑战,如何达成目标???99.995%可用性SLA慢请求识别海量工单准确分析简单快捷易用性目标

结合AI的智能运维助力能效提升算力算法数据专家当前位置智能运维AIOPS数据运维DataOPS开发运维DevOPS脚本运维ScriptOPS人肉运维PersonOPS

场景1:通过AI做好根因分析支撑可用性SLA达成—背景海量存储规模X万亿请求每天99.995%可用性SLA1分钟发现、5分钟处置、10分钟恢复根因分析是核心

场景1:通过AI做好根因分析支撑可用性SLA达成—逻辑架构POPAPIWEB页面展示…….钉钉分析报告UI交互简单易用钉钉机器人查询模块特征分析结果专家经验集群指标画像机器指标画像用户指标画像机器指标异常集群指标异常事件跟踪关联异实体指标特征画像(基线库)异常库分析结果监控报警错误根因分析离线分析实时分析执行层算法ConstraintK-sigma算法HTM算法LOF算法BOXPLOT算法算法引擎分析诊断引擎智能算法库运维数据管理异常感知模块全链路诊断模块机器级功能模块级非功能模块监控自身业务模块前端日志后端日志运数据MetricTraceLogEvent赤骥运维平台基础模块底层平台算力+存储实时计算离线计算机器学习日志存储OLAPOLTP大数据计算平台存储平台工程化、服务化的算力和存储平台是基础,多维度的运维数据积累是动力算法+专家经验是引擎,简单易用UI助推广

场景1:通过AI做好根因分析支撑可用性SLA达成—分析流程TRACE模块A(IP地址1)赤骥告警SLS告警分析任务分析树构建分析树配置专家经验模块B(IP地址2)模块B(IP地址3)特指异常检模块C(IP地址4)分析任务构建分析树构建链路异常分析根因分析

场景1:通过AI做好根因分析支撑可用性SLA达成—效果根因发现问题诊断异常感知3分钟10+种数据源分析完成百万错误分析(百万错误在1分钟内产生)

场景2:智能分析访问全链路追踪慢请求—背景租户级粒度慢请求定义哪里慢了单请求慢、整体性慢?1秒、2秒、…租户A要求秒开,租户B要求不超过2秒,……定位链路长多样的分析工具分析难度大监控及时性……度量标准:平均延时、最大延时、分位数延时

场景2:智能分析访问全链路追踪慢请求—逻辑架构逻辑架构慢请定根因定位异常监控对象根因分析KV根因分析盘古根因分析聚集性分析(IP、操作类型),用户行为异常分析(QPS、流量、特殊请求突增)对象前端对象功能KV层用户的单请求、桶请求异常监控机器延时异常监控集群延时异常监控499超时异常监控潜在故障异常监控模块hang、请求Body传输慢、某些特定请求慢、访问底层慢……日志存储(Metric、Trace、Log、Event)时序算法分析聚集性分析(IP、操作类型),RPC、IO、队列异常、负载、缓存、盘古层分位数延时请求统计数据KV延时数据机器数据实时数据性能分析对象延时数据盘古延时数据慢盘、集群过载、线程变慢、Burst突发流量等盘古层机器层对象功能层机器级KV索引层网络级MEM盘古数据层集群级性能异常(CPU、MEM、Drive、网络),进场异常、升级检测等CPUDrive

场景2:智能分析访问全链路追踪慢请求—效果用户延时集群延时机器延时

场景3:采用NLP分析海量工单挖掘改进方向—背景用户调研产品使用产品控制台、SDK、API自助排查文档、工具自助服务智能语音、服务遇到问题售后服务人工参与针对进入工单系统的问题定点优化度量工单数量、工单解决时长

场景3:采用NLP分析海量工单挖掘改进方向—方案工单系统数据(文字、语音、图片等)NLP接入数据清洗智能训练基于工单标签分类,费用类工单居然占比最大分析流转环节,服务时长降低X倍通过智能分析,大量节约手工标注开销

场景3:采用NLP分析海量工单挖掘改进方向—效果一级标签3轮迭代工单分类准确率从40+60+%→70+%→80+%

场景4:探寻AIGC的智能机器人提高易用性—背景用户调研产品使用产品控制台、SDK、API自助排查文档、工具自助服务智能语音、服务遇到问题售后服务人工参与通过AIGC训练的智能机器人,采用文字、图片、视频为用户提供服务通过智能回答解决问题,降低工单数量,减少服务人力投入随时快速响应,解决问题,提高易用性

场景4:探寻AIGC的智能机器人提高易用性—方案探索当前阶段AI生成文档AI生成操作图片AI生成

文档评论(0)

陈小颜童鞋 + 关注
实名认证
内容提供者

要是文档已下架,仅可试读部分内容的,请私信我 本账号发布文档部分原创,部分来源于互联网和个人收集,仅用于技术分享交流,版权为原作者所有,如果侵犯了您的知识版权,请提出指正,将立即删除相关资料。

版权声明书
用户编号:7066016145000016

1亿VIP精品文档

相关文档