FFA2024分论坛-生产实践 合辑_部分1.pdf

FFA2024分论坛-生产实践 合辑_部分1.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多

快手Flink智能化异常节点治理实践

PracticeofAutomaticAbnormalNodeGovernanceinFlinkClusteratKuaishou

郭旸泽快手技术专家,ApacheFlinkCommitter

李国君快手技术专家,ApachePaimonCommitter

智能发现节点自愈单点容错能力增强

异常节点的分类与智能检测异常节点的启发式自动化运维策略MasterFailover与Task单点恢复

异常节点的智能发现

快手Flink平台现状

实时数据同步算法

丰富的Connector生态特征计算/样本拼接/湖仓一体

实时数仓构建使用业务商业化

高吞吐/低延迟的ETL处理方式场景广告数据流加工

AIDatalake数仓

Flink+Hudi构建实时样本湖电商等业务数仓构建

快手Flink平台

万级别用户作业百万级别CU规模数十亿级别峰值QPS

常见作业运维问题

数据倾斜热点机器

业务数据存在数据倾斜单个机器瞬时负载过高

异常数据作业节点硬件故障

异常数据导致作业失败异常异常机器掉盘/CPU故障/内存故障

流量压力过大网络异常

作业资源无法承载峰值流量无法访问外部网络/频繁丢包

节点异常导致大规模作业问题

硬件故障热点机器网络异常

某机器掉盘导致该节点大促高峰时期,某机器负交换机故障导致转发表

上的作业进行Checkpoint载过高导致该节点上所项异常,部分机器与其他

时写磁盘卡死,进而造成有相关作业出现延迟机器通信时频繁丢包导

大量作业反压,输入掉零致作业大规模频繁重启

节点异常导致大规模作业问题

排查时间长:大量作业失败,很难通过人工排查短时间内定位到

真正的问题节点

爆炸半径大:问题节点出现在高优队列则涉及较多高优任务,若

未能及时排除异常节点则会导致资损

异常节点的智能检测

基于业务指标:Source延迟/算子吞吐/反压/Checkpoint耗时

基于机器指标:CPU利用率/内存利用率/内存延迟/IO延迟…

文档评论(0)

百强名校试卷 + 关注
实名认证
内容提供者

百强名校试卷

1亿VIP精品文档

相关文档