FFA2024分论坛-数据集成 合辑.docx

  1. 1、本文档共329页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

FlinkCDCYAML:面向数据集成的API设计

FlinkCDCYAML:TheAPIdesignedforDataIntegration

徐榜江(雪尽)FlinkPMCMemberCommitter,FlinkCDC项目负责人

FlinkCDCYAMLAPITransform+AICommunity

FlinkCDC

FlinkCDC项目介绍,定位,优势

FlinkCDC

FlinkCDC是基于数据库的日志CDC(ChangeDataCapture)技术,实现了全增量一体化读取的端到端流式数据集成框架,配合Flink优秀的管道能力和丰富的上下游生态,FlinkCDC可以高效实现海量数据的实时集成。

全量数据

实时,一致性

FlinkCDCPaimon增量数据

FlinkCDC

Paimon

增量数据

FlinkCDC

FlinkCDC用户API

PaimonTiDB

Paimon

TiDB

Hudi

ClickHouseHologres

Iceberg

RDSMySQL

TiDB

CDCYAML

CDCYAMLAPI

SchemaEvolution

Filter

FlinkSQLAPI

GROUPBY

INSERT

FlinkDataStreamAPI

keyBy

flatMap

SchemaSync

FullDBSync

aggregate

WHERE

Top-N

SELECT

filter

SELECT

join

map

UDF

JOIN

DataX/Sqoop全量同步Debezium/

DataX/Sqoop全量同步

Debezium/Canal增量同步

全量表

定时合并

结果表

增量表

链路组件多数据新鲜度数据一致性研发技术栈

链路组件多

数据新鲜度

数据一致性

研发技术栈

定时合并结果表DataX/Sqoop全量同步Canal/Debezium增量同步

定时合并

结果表

DataX/Sqoop

全量同步

Canal/Debezium

增量同步

全量表

增量表

CDCSourceCustomLogicsSink

结果表

全增量一体化端到端作业不丢不重亚秒级延迟

全增量一体化

端到端作业

不丢不重

亚秒级延迟

FlinkCDC用户API

PaimonTiDB

Paimon

TiDB

Hudi

StarRocksHologres

Iceberg

RDSMySQL

TiDB

CDCYAML

CDCYAMLAPI

SchemaEvolution

Filter

FlinkSQLAPI

GROUPBY

INSERT

FlinkDataStreamAPI

keyBy

flatMap

SchemaSync

FullDBSync

aggregate

WHERE

Top-N

SELECT

filter

SELECT

join

map

UDF

JOIN

45

45

FlinkCDC的优势

45

45

端到端DataPipeline

一个YAML文本,一个DataPipeline一行Shell命令,一个Flink作业

强大的Transform支持

支持SELECT、WHERE、计算列、表达式提供丰富的内置函数,同时支持UDF

细粒度SchemaEvolution

表结构变更自动同步,无需作业启停

根据容错和演进策略,支持细粒度控制

全增量一体化

全量和增量自动衔接,无锁算法保证一致性无需调度系统和手工介入

YAMLAPI

YAMLAPI设计背景,设计考量,核心特性

FlinkCDC发展历史

2020/07

KickOff

2021/08

2.0版本

2022/11

2.3版本

2023/10

3.0版本

2024/01

捐赠ASF

2024/09

3.2版本

MySQLCDC,PostgresCDC连接器

MySQLCDC实现增量快照算法

增量快照框架,覆盖重点连接器

YAMLAPI,端到端流式数据集成框架

作为ApacheFlink子项目捐赠给ASF

YAML支持Transform(Projection,Filter,UDF)

FlinkCDC1.x:Flink的CDC连接器

dataconsistency

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档