- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
我的库表
库肾理
表管理
避表所件
资产运营
全链路血缘
管理中心
业务线管
理
访问控制
审计日志
系统配置
能力开放
API开放
页面集成
能力插件
高线元数据共享
DATA
AI
主动元数据
资产质量资产评估
建表Catalog元数据服务
生产类数据分析类数据指标类数据
实验类数据非结构化数据
DAMS中国数据智能管理峰会
资产日录日录导航智能栏素
资产详情
资产使用
I调天
数据预宽
指标洞要
资产互动
分平评论
资产级
资产国
全链路血缘
表血峰
字段血爆
五峰插件
数据检索
报云措尊
智能助手
个性化
资产管理
元数据采集
表类资产
资产
消费
资产
管理
元数据中心
资产
类型
抖音数据资产管理平台
消费促生产
抖音集团血缘整体介绍
抖音集团血缘系统架构抖音集团血缘应用场景未来展望
CONTENTS
DAMS中国数据智能管理峰会
抖音集团血缘整体介绍
DAMS中国数据智能管理峰会
整体概览
构建全覆盖、精细化的全链路血缘,以开放能力赋能业务
亿级亿级
算子级血缘数量
十亿级
实体级血缘数量
亿级
实体数量
建设背景
元数据:Metadata,指描述数据的数据,提供了有关数据的信息,具体实现时分为数据实体和数据血缘
数据实体:大数据领域元数据方向,数据对象通常被抽象为逻辑实体存储,具备唯一ID和实体属性
数据血缘:大数据领域元数据方向,元数据实体之间关系单独抽象,也是大数据任务代码的结构化描述语
宣
抖音集团血缘建设背景
■看链路:大数据是一个超大的数据链路,抖音有百万级调度任务,需要结合数据血缘才能看清整体
■保质量:每日万级线上数据任务变更,需要考虑对于链路影响,需要借助血缘评估全链路影响面
■保安全:产品体系中用户类、高密指标等敏感数据,也需要依赖血缘数据传播能力,能够精准发现高密数据
■降成本:公司消耗超大规模的计算/存储资源,需结合血缘系统精准发现低价值无效资源,进行有效治理
DAMS中国数据智能管理峰会
血缘粒度实体级血缘列级血缘行级血缘算子级血缘
DAMS中国数据智能管理峰会
数据应用血缘
服务血缘产品血缘
数据生产血缘
实时血缘离线血缘
数据采集血缘埋点血缘
离线数仓
实时数仓
血缘整体链路
数据服务应用产品
DB
MO
大数据链路
血缘链路
埋点
OLAP/KV
血缘模型抽象
3类6类实体抽象
DataStoreColummProoess
混合血缘存储模型设计
转换
模型1模型2
血缘模型抽象
数据血缘简单的抽象为点和边,就能解决所有问题吗?
模型1:写慢读快
intotb
模型2:写快读慢
ta
taol)tao2
createtable
tb(
columntbc1.
columntbc2
)
tb
tbo2tbol
insert
select
tac1.
tac2.
from
ta
DAMS中国数据智能管理峰会
task
task
tb
tbol
task
task
ta
tacI
tasl
taak
tbo2
tac2
血缘覆盖率:任务成功解析数量/任务接入数量
血缘准确率:(任务成功解析数量-异常解析数量)/任务接入数量
血缘完整率:完整任务数量/任务接入数量
由*18*
*W
18
N
M
佩H
第心
行
im
nn
π器
%
J%
级
msn
a
5
an
mm
am
所
概
nr
n
n
丽
N
m
W
s
a
an
惊
它
管
M
mm
第
3
m0
血缘质量分92
血缘衡量指标
口径探查血缘分析产品血缘效能工具箱
血缘分析服务
血缘数据写入血缘存储
PULL接入模式离线接入模式手动登记模式
离线生产ETL实时生产ETL应用访问日志
血缘图谱
血缘数据解析
PUSH接入模式
埋点任务ETL
开放
OpenUI
OpenAPI
OpenData
开放接入
手动
全链
文档评论(0)