详解数据中台的底层架构逻辑.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

详解数据中台的底层架构逻辑

转⾃:商业智能研究

数据中台到底是什么,⼏年过去了,也⼀直众说纷纭。

笔者认为数据中台不应该是⼀个单纯的系统或者是⼀个软件⼯具,⽽应该是⼀套架构、⼀套数据流转模式。

数据中台需要采集数据作为原材料进⾏数据加⼯、数据建模,然后分门别类地储存,再根据实际的业务场景,打造各类数据服务(含数据应

⽤平台)从⽽实现对业务的赋能加速。

但以上流程的实现,需要有对应的系统与产品作为⽀撑,那么基础的数据中台到底应该由哪些系统或者产品组成?

这⾥我们可以先来看⼀下⼏个企业的数据中台架构。

可以看出,虽然每个企业由于⾃⾝业务的不同,衍⽣出来的数据中台体系都有所不同,但⼤的架构⽅⾯是基本统⼀的,都需要通过⼀个“数

据采集接⼊”-“加⼯存储”-“统⼀管理”-“服务应⽤”的阶段。

这⾥笔者认为《数据中台产品经理:从数据体系到数据平台实战》⼀书中总结的数据中台架构是⽐较具有普适性的,不论是互联⽹⾏业、

还是传统⾏业,都可以在该架构上进⾏改造,设计建设⾃⼰的中台架构。

总体来说数据中台的功能架构由⼤数据平台、数据资产管理平台与数据服务平台三⼤部分组成,其中在数据服务平台中⾃助分析平台与标签

管理系统的应⽤场景最为⼴泛。

1、⼤数据平台

⼤数据平台是数据中台的基座,我们也可以把⼤数据平台称为⼤数据开发平台,它需要具备与⼤数据相关的开发能⼒,提供数据存储、数据

清洗/计算、数据查询展⽰及权限管理等功能。那么,应该如何建设上述功能与服务?是不是拥有了上述能⼒就等同于成功打造⼤数据平台

了呢?

其实我们可以发现各公司的⼤数据平台系统架构其实⼤同⼩异,各类架构都包含了数据采集组件、数据存储组件、数据计算引擎、数据权限

与安全组件,以及集群管理与监控组件等。

除了少数像阿⾥这样倾⼒打造⾃研“飞天”系统的企业,其他企业在底层组件选⽤上,还是以Hadoop⽣态构建的技术体系为主,依托各

类开源组件进⾏优化改进与⼆次开发。例如,数据存储组件可以选择HBase、Hive等组件,数据计算引擎可以选择Spark、Flink等分布式

计算引擎。

既然⼤家选⽤的组件相同或者相似,那为什么最终各企业⼤数据平台的服务能⼒还是存在差距呢?这有些类似于购买零件组装台式电脑,零

件不需要选最贵的,⽽是要根据实际需求来选择最适合的。

好⽤的⼤数据平台需要拥有为⽤户解决问题的能⼒。因此,数据中台的⼤数据平台建设不是⽐拼引⽤了多少新技术、覆盖了多少技术组件,

⽽是要看它能否解决数据中台建设中所⾯临的复杂数据现状,能否成为数据中台打破数据壁垒的技术保障,能否提供简洁有效的数据处理⼯

具,如提供⾃助配置式的数据采集与数据清洗⼯具等,以及能否提供更多的附加价值。

数据中台的⼤数据平台建设,可以避免各事业部技术团队各⾃搭建⼤数据集群所带来的资源浪费。统⼀的、成熟的⼤数据平台对企业来说,

不能⼀蹴⽽就,需要循序渐进、分步实施,在持续迭代中构建企业的⼤数据平台⽣态。

2、数据资产管理平台

数据资产管理平台主要解决数据资源的管理,数据资产遍布在各个⼤数据组件中,有hive的表,有hbase的表,有druid的datasource,有

kafka中的流,各个组件的管控系统很难互相打通,所以需要⼀个统⼀的数据资产管理服务,来统筹⼤数据资源的管理。

随着⼤数据平台的建设,构建数据中台的数据体系成为可能,通过对各业务线数据的归类整合,我们可以构建出各个数据主题域,完成数据

的规范存储,形成数据资产,进⽽完成数据资产管理。

在数据中台体系中,数据资产管理平台主要由元数据管理与数据模型管理组成,下⾯让我们分别了解⼀下。

元数据管理

讲述元数据管理,我们需要先弄清楚什么是元数据。

元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(dataaboutdata),对数据及信息资源的描

述性信息。元数据是所有数据中最重要的数据。

这⾥举⼀个最通俗的例⼦。当我们去图书馆借书时,直接⾯对数以万计的图书,⾃然难以寻找,但是你通过在图书馆查询系统中输⼊这本的

书名、作者、出版社等信息,获取就能准确的图书位置。那么这些书名、作者等信息,就可以理解为元数据,⽽图书的存放位置、借阅历史

记录等,则是我们系统中的普通数据。

在数据库中,每⼀张数据表的表名、创建信息(创建⼈、创建时间、所属部门)、修改信息、表字段(字段名、字段类型、字段长度等),

以及该表与其他表之间的关系等信息都属于这张数据表的元数据。

其实,元数据有多种分类⽅式,笔者更倾向于按照元数据的⽤途来区分,总共分为三类:业务元

文档评论(0)

138****1686 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档