- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DAMS
中国数据智能管理峰会
DATAAIMANAGEMENTsUMMIT
抖音集团大数据血缘演进与应用演讲人:赵国祥
抖音数据资产管理平台
资产消费
消费促生产
消费促生产
资产
管理
元数据中心
资产类型
数据检索
报云措尊
智能助手
个性化
资产管理
元数据采集
表类资产
资产日录日录导航智能栏素
资产详情
资产使用
I调天
数据预宽
指标洞要
资产互动
分平评论
资产级
资产国
全链路血缘
表血峰
字段血爆
五峰插件
主动元数据
资产质量资产评估
建表Catalog元数据服务
生产类数据分析类数据指标类数据
我的库表
库肾理
表管理
避表所件
资产运营
全链路血缘
管理中心
业务线管
理
访问控制
审计日志
系统配置
能力开放
API开放
页面集成
能力插件
高线元数据共享
DATA
AI
实验类数据非结构化数据
DAMS中国数据智能管理峰会
CONTENTS抖音集团血缘整体介绍抖音集团血缘系统架构抖音集团血缘应用场景未来展望
CONTENTS
DAMS中国数据智能管理峰会
抖音集团血缘整体介绍
DAMS中国数据智能管理峰会
整体概览
构建全覆盖、精细化的全链路血缘,以开放能力赋能业务
亿级
实体数量
十亿级
实体级血缘数量
亿级亿级
算子级血缘数量
DAMS
DAMS中国数据智能管理峰会
建设背景
元数据:Metadata,指描述数据的数据,提供了有关数据的信息,具体实现时分为数据实体和数据血缘
数据实体:大数据领域元数据方向,数据对象通常被抽象为逻辑实体存储,具备唯一ID和实体属性
数据血缘:大数据领域元数据方向,元数据实体之间关系单独抽象,也是大数据任务代码的结构化描述语
宣
抖音集团血缘建设背景
■看链路:大数据是一个超大的数据链路,抖音有百万级调度任务,需要结合数据血缘才能看清整体
■保质量:每日万级线上数据任务变更,需要考虑对于链路影响,需要借助血缘评估全链路影响面
■保安全:产品体系中用户类、高密指标等敏感数据,也需要依赖血缘数据传播能力,能够精准发现高密数据
■降成本:公司消耗超大规模的计算/存储资源,需结合血缘系统精准发现低价值无效资源,进行有效治理
DAMS中国数据智能管理峰会
血缘整体链路
大数据链路
大数据链路
DB离线数仓
DB
OLAP/KV数据服务应用产品
OLAP/KV
埋点MO实时数仓
埋点
MO
血
血缘链路
数据采集血缘埋点血缘数据生产血缘实时血缘离线血缘数据应
数据采集血缘埋点血缘
数据生产血缘
实时血缘离线血缘
服务血缘产品血缘
血缘粒度实体级血缘列级血缘行级血缘算子级血缘
DAMS中国数据智能管理峰会
血缘模型抽象
数据血缘简单的抽象为点和边,就能解决所有问题吗?
模型1:写慢读快
taakcreatetabletac2
taak
createtable
tac2
ta
tbo2tbtb(
tbo2
tb
column
columntbc1.
tacItbolcolumntbc2
tacI
tbol
)
insertselecttac1.
insert
select
tac1.tac2.
模型2:写快读慢
tasktbtbo2
task
tb
tbo2tbol
from
tataol)tao2
ta
task
tasl
血缘模型抽象
3类6类实体抽象
DataStoreColummProoess
混合血缘存储模型设计
转换
模型1模型2
DAMS中国数据智能管理峰会
血缘衡量指标
血
血缘质量分
血缘覆盖率:任务成功解析数量/任务接入数量
血缘准确率:(任务成功解析数量-异常解析数量)/任务接入数量
血缘完整率:完整任务数量/任务接入数量
血缘质量分92
m0
DAMS
DAMS中国数据智能管理峰会
血缘应用血缘
血缘应用血缘分析数据处理数据接入数据源
开放
口径探查
口径探查血缘分析产品血缘效能工具箱
OpenUI
文档评论(0)