- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AIGC助力大规模对象存储服务OSS阿里巴巴资深技术专家对象存储负责人罗
大规模对象存储服务OSS在开发运维中的挑战和目标挑战大规模海量存储量巨量请求X万亿/天多租户阿里云400万用户面对巨大挑战,如何达成目标???99.995%可用性SLA慢请求识别海量工单准确分析简单快捷易用性目标
结合AI的智能运维助力能效提升算力算法数据专家当前位置智能运维AIOPS数据运维DataOPS开发运维DevOPS脚本运维ScriptOPS人肉运维PersonOPS
场景1:通过AI做好根因分析支撑可用性SLA达成—背景海量存储规模X万亿请求每天99.995%可用性SLA1分钟发现、5分钟处置、10分钟恢复根因分析是核心
场景1:通过AI做好根因分析支撑可用性SLA达成—逻辑架构POPAPIWEB页面展示…….钉钉分析报告UI交互简单易用钉钉机器人查询模块特征分析结果专家经验集群指标画像机器指标画像用户指标画像机器指标异常集群指标异常事件跟踪关联异实体指标特征画像(基线库)异常库分析结果监控报警错误根因分析离线分析实时分析执行层算法ConstraintK-sigma算法HTM算法LOF算法BOXPLOT算法算法引擎分析诊断引擎智能算法库运维数据管理异常感知模块全链路诊断模块机器级功能模块级非功能模块监控自身业务模块前端日志后端日志运数据MetricTraceLogEvent赤骥运维平台基础模块底层平台算力+存储实时计算离线计算机器学习日志存储OLAPOLTP大数据计算平台存储平台工程化、服务化的算力和存储平台是基础,多维度的运维数据积累是动力算法+专家经验是引擎,简单易用UI助推广
场景1:通过AI做好根因分析支撑可用性SLA达成—分析流程TRACE模块A(IP地址1)赤骥告警SLS告警分析任务分析树构建分析树配置专家经验模块B(IP地址2)模块B(IP地址3)特指异常检模块C(IP地址4)分析任务构建分析树构建链路异常分析根因分析
场景1:通过AI做好根因分析支撑可用性SLA达成—效果根因发现问题诊断异常感知3分钟10+种数据源分析完成百万错误分析(百万错误在1分钟内产生)
场景2:智能分析访问全链路追踪慢请求—背景租户级粒度慢请求定义哪里慢了单请求慢、整体性慢?1秒、2秒、…租户A要求秒开,租户B要求不超过2秒,……定位链路长多样的分析工具分析难度大监控及时性……度量标准:平均延时、最大延时、分位数延时
场景2:智能分析访问全链路追踪慢请求—逻辑架构逻辑架构慢请定根因定位异常监控对象根因分析KV根因分析盘古根因分析聚集性分析(IP、操作类型),用户行为异常分析(QPS、流量、特殊请求突增)对象前端对象功能KV层用户的单请求、桶请求异常监控机器延时异常监控集群延时异常监控499超时异常监控潜在故障异常监控模块hang、请求Body传输慢、某些特定请求慢、访问底层慢……日志存储(Metric、Trace、Log、Event)时序算法分析聚集性分析(IP、操作类型),RPC、IO、队列异常、负载、缓存、盘古层分位数延时请求统计数据KV延时数据机器数据实时数据性能分析对象延时数据盘古延时数据慢盘、集群过载、线程变慢、Burst突发流量等盘古层机器层对象功能层机器级KV索引层网络级MEM盘古数据层集群级性能异常(CPU、MEM、Drive、网络),进场异常、升级检测等CPUDrive
场景2:智能分析访问全链路追踪慢请求—效果用户延时集群延时机器延时
场景3:采用NLP分析海量工单挖掘改进方向—背景用户调研产品使用产品控制台、SDK、API自助排查文档、工具自助服务智能语音、服务遇到问题售后服务人工参与针对进入工单系统的问题定点优化度量工单数量、工单解决时长
场景3:采用NLP分析海量工单挖掘改进方向—方案工单系统数据(文字、语音、图片等)NLP接入数据清洗智能训练基于工单标签分类,费用类工单居然占比最大分析流转环节,服务时长降低X倍通过智能分析,大量节约手工标注开销
场景3:采用NLP分析海量工单挖掘改进方向—效果一级标签3轮迭代工单分类准确率从40+60+%→70+%→80+%
场景4:探寻AIGC的智能机器人提高易用性—背景用户调研产品使用产品控制台、SDK、API自助排查文档、工具自助服务智能语音、服务遇到问题售后服务人工参与通过AIGC训练的智能机器人,采用文字、图片、视频为用户提供服务通过智能回答解决问题,降低工单数量,减少服务人力投入随时快速响应,解决问题,提高易用性
场景4:探寻AIGC的智能机器人提高易用性—方案探索当前阶段AI生成文档AI生成操作图片AI生成
您可能关注的文档
- ACCA-全球经济状况调查:2024年第二季度(英)-11正式版.ppt
- AI Agent开发管理平台市场厂商评估报告:火山引擎-24正式版.ppt
- AI 赋能集成电路教育数字化发展白皮书(1.0 版)-2024.08-86正式版.ppt
- AI大模型落地的前景和痛点,兼谈工程师架构师所面临的机会和挑战-2024.08-43正式版.ppt
- AI蛋白质报告-2024.08-49正式版.ppt
- AI多媒体技术在内容审核场景实践探索-2024.07-33正式版.ppt
- AI音乐应用产业报告-量子位智库-2024.07-24正式版.ppt
- AI原生云建设与加速指南-2024.07-42正式版.ppt
- 2023高考作文素材积累:大国工匠(年度人物盘点+金句).pdf
- 2024年教育实习自我总结参考范文(四篇).pdf
文档评论(0)