- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里管控体系在双十一的实践
议程
简介
阿里线上管控体系,应对挑战
关于我们
阿里管控体系
在双十一的实
践
阿里中间件技术部
打造世界第一流的中间件
? 此处添加一个双十一的集体照
阿里线上管控体系
开关预案
限流
降级流量调度
议程
简介
阿里线上管控体系,应对挑战
关于我们
阿里管控体系
的最佳实践
阿里线上管控体系
限流
场景一:零点零分小唐下单了
140000 笔/秒
创建订单当天峰值
天猫移动端销售金额
突破1亿
75 秒
销售金额破百亿
38分钟
用户洪峰在双十一
单台服务器超负荷
服务器集群雪崩
交易链路崩溃
短时大流量的请求
负载
洪峰对系统意味着什么
允许访问
的速率
①
爆发量
②
爆发间隔
时间
③
限流的考虑因素
来到的请求
拦截器
存储量为b的令牌桶
丢弃
令牌桶限流
按照每1/r秒的速度向桶中存放1令牌
继续发送
Token rate: r
承诺突发量:
双十一零点:小唐下单
桶的大小是300个令牌
系统的通过率为1000qps,把一
秒切成10 个格子, 每个格子的
时间窗口为100ms,每个格子
发放 1000/10 个令牌
洪峰场景:
? 双十一0点之前,桶里放满
了令牌
? 在双十一0点到0点10分,每秒
的请求超过了10000
如何把Token Rate转换成通过率?
双十一系统表现
场景二:双十一零点零五分:小唐的
订单状态变为已经发货
数据
特性
前5分钟包裹
处理量是484万
前38分钟包裹
处理量是3754
万
有时间间隔
调用量大
允许有延迟
系统间的回调洪峰
……
漏桶算法
到达速率
漏桶
输出速率
丢弃/排队
小唐的订单什么时候回调完成?
监控模块
实时监控
收集数据
反馈分析
限流处理
丢弃请求
等待队列
规则变更
动态调整
令牌桶容量
令牌产生速率
限流决策
区分场景
用户洪峰
回调洪峰
系统保护
限流框架的要素
策略的平衡
限流处理的思考
更多的场景
场景延伸
阿里线上管控体系
限流
降级流量调度
系统的可用性
商品
浏览
广告
业务
会员
系统
库存
查询
优惠
折扣
物流
系统
保险
系统
用户
推荐
系统的可用性
N越大,小唐失败
的概率就越高
系统的可用性
降级弱依
赖应用
剔除应用
局部问题
机器
提高可用性的方式
能够在避免调用这个
逻辑
异常数增多
RT变长
Threads = QPS * RT
线程数随着rt的增长
而增长
上游系统如何发现弱依赖应用不可用
4
3
1
2
梳理强弱依赖
梳理强弱依赖
弱依赖应用不可用
梳理强弱依赖
自动降级
自动降级框架
降级弱依
赖应用
剔除应用
局部问题
机器
提高可用性的方式
分布式环境同一个应用不同机器由于硬
件、网络、超卖、程序自身等众多因素
出现服务状态的差异
通过流量调度策略,使分布式服
务具备自愈能力和自我隔离能力
应用局部不可用
34
全局探测与流量调度
cpu
load
rt
Excepti
on
ratio
Thread
Count
level
业务
state
Restful
Api
hsf
tomcat
……
信息注入spi
应用
cpu
load
rt
Excepti
on
ratio
Thread
Count
level
业务
state
Restful
Api
hsf
tomcat
……
信息注入spi
应用
cpu
load
rt
Excepti
on
ratio
Thread
Count
level
业务
state
Restful
Api
hsf
tomcat
……
信息注入spi
应用
流量调度平台状态收
集模块
采集节点
采集节点
采集节点
采集节点
采集节点
采集节点
快速
实时
多维聚合
视图
近期归档
报表
实时单机
视图
2
3
4
用户洪峰
限流排队
回调洪峰
漏桶限速
应用局部
不可用
全局探测以及
流量调度
弱依赖应用
不可用
自动降级
小唐能够顺利下单
1
阿里线上管控体系
开关预案
限流
降级流量调度
快速准确执行
标准化变更
透明的通知流
大促当天
38
标准化变更
开关中心控制台
稳定性开关客户端
开关定义
使用开关
控制台交
互
获取开关信
息
权限与日
志
开关报表
开关分组
标
准
开关监控
定时开关
规
范
更新开关
内存态与持久
化
容灾机
制
安全机
制
开关管理
分机房执行
使用
简单
操作权限
通知机制
维护
便捷
高效
定义开关
变更开关
校验开关
透明的通知流
隔离流程
权限控制
透明通知
角色视图
文档评论(0)