蚂蚁数据成本治理实践.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

蚂蚁数据成本治理实践

目录

背景介绍

组织设计和职责定义

蚂蚁成本治理实践

成本

价值

增速难衡量

资源增速快,会稀释业务的盈利能力

单靠引擎和硬件的红利已经难以满足业务的需求

效率难看清

从平台视角,看不清各业务使用资源效率

从业务视角,觉得平台效率看不清

为什么要做数据成本治理

组织设计和职责定义

通过合理的组织架构,以及清晰的职责定义,可以帮助治理快速落地,且达成目标

各业务CTOs

蚂蚁全域架构组

蚂蚁技术战略

数据智能架构委员会

蚂蚁数据工作组

数据成本治理小组

平台体系

定价体系建设

对客定价设计和测算

资源成本体系监控

持续优化单价

标准和制度建设

制定统一的标准和规则

达成共识的目标

用量体系建设

资源用量账单建设

治理策略挖掘和方案设计

提升业务治理和管理的效率

组织视角的成本体系和职责定义

业务体系

职责:接受各业务数据工作组的指导,完成本业务线内的成本预算目标设定、成本治理目标达成,并与产品能力小组配合,迭代成本治理能力

支付宝业务

数据智能业务

数字金融业务

安全业务

国际业务

数字科技业务

......

SRE

+

基础资源团队

+

数据软件团队

业务团队

+

硬件可承载

容器池化资源

集群已持有

实际已分配

实际

使用

硬件选型,定制加速卡,自研硬件......

利用统一调度和容器技术来实现池化资源

提升流转效率,无用资源及时归还容器,降低无效持有

通过需求错峰和分时,来提升配额的利用率

管理和评估需求的合理性,平台提升用量的治理效率

财务视角的成本体系和职责定义

定价

售卖

定价

平台治理团队售卖

成本治理实践

从定价用量管理、单价治理、用量治理、以及平台能力四个维度分别阐述我们在蚂蚁的成本治理实践

整体技术架构

支付宝业务

数据智能业务

金融业务

大安全业务

国际业务

数字科技业务

......

组织保障制度规约

定价和用量设计

健康分规范

成本运营

培训分享,最佳实践

财务成本账单

BU账单

项目/团队账单

个人账单

平台用量管治

健康分和治理策略挖掘

计算资源错峰调度

配额分时

任务延迟起调

闲时补数据

基于时效承诺,自动的对计算资源池,任务起调时间进行统筹规划,从而实现CPU全天资源的利用率最大化,以及提升

链路下线

提升治理资产覆盖率和治理效率将策略覆盖到事前事中

事前事中资源管理

大任务自动查杀

运维补数据管控

成本发布管控

业务用量管治

控制成本的增速,确保健康有序发展,提升资源的密度,看清成本的构成

自动重排和归档

冷数据重排

表级别自动归档

单价治理

网络削峰优化

跨集群缓存

网络限流

架构分拆和迁移

通过尽可能的数据本地化存算以及一定程度的网络限流来降低网络成本

基础设施和引擎优化降本

热冷分级存储

算力混部

自建网络

......

短查询加速

SSD缓存提升I/O

硬件选型

......

其他资源优化

回收站治理 系统账号治理

tunnel上传下载 非法传参治理治理系统错误治理 ......

单价

(效率)

用量

(需求)

成本

目标:

平台产品化计量计费,使用方看得清使用成本

建立数据资源的效率评估体系,推进效能整体可衡量

存储

资源成本

计算 网络

其他

其他成本

软件

运维

第三方

其他

表存储

回收站

其他

存储

业务消耗

系统消耗

其他

计算

可管理

可度量

基于计量计费体系,向用户透明化计算/存储使用量及成本;

建立PL管理

定义关键指标,包括成本指标效率指标;

单价和用量

资源现状

单价治理——提升配额的利用率,降低单价

I/O吞吐能力能力(峰值排队率,日均排队率)

CPU

内存

网络

存储资源

利用率%

日均利用率%峰值利用率%

日均利用率%峰值利用率%

日均利用率%峰值利用率%

结合时效承诺,寻找资源的瓶颈,通过适当的价格引导和技术能力,来提升资源的利用率

存储/计算用量治理——管治结合

数据治理策略

计算治理

数据倾斜

join倾斜

group倾斜

reduce倾斜

暴力扫描

数据裁剪

DynamicFilter

ClusterZorder

业务裁剪

增量化改造

渐进计算

分区裁剪

其他优化

MapJoin

低性能函数

函数替换

参数不合理

map倾斜

资产退役

无效任务和表下线

无效报表下线

无效标签下线

无效回流下线

成本管控

运维成本管控

事中成本发布管控

事中大任务自动查杀

事前任务运行成本预估

存储治理

存储生命周期缩短

大字段结构化

简单加工

重复数据表

事前

制定规范,建立标准

事中

落实管理

事后

持续优化,需求审计

平台治理提效(成本健康分)

基于累计浪费和时间加成,升级成本健康分算法

1

通过产品和技术能力,提升用户治理体验

2

全面性

覆盖N个核心研发平台,

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档