网站大量收购闲置独家精品文档,联系QQ:2885784924

数据中台技术架构设计方案.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据中台技术架构设计方案

一、数据中台总体架构图

前面我们通过理论层面对数据中台有了一定的了解,下面我们通过架构层面来详细看一下数

据中台的设计。

数据中台是位于底层存储计算平台与上层的数据应用之间的一整套体系。

数据中台屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,让数据的使用成

本更低。

通过数据中台的数据汇聚、数据开发模块建立企业数据资产。

通过数据体系对数据进行分层存储

通过资产管理、数据服务,把数据资产变为数据服务能力,服务于企业业务。

数据安全管理、数据运营体系,保障数据中台可以长期健康、持续运转。

1、数据汇聚

数据汇聚是数据中台数据接入的入口,数据中台本身不产生数据,所有的数据来自于业务系

统,数据库、日志、文件等,这些数据分散在不同的网络环境和存储平台中,难以利用,很

难产生业务价值,所以需要统一汇聚。

2、数据开发

数据开发是一整套数据加工以及处理的工具,因为通过数据汇聚模块汇聚到中台的数据没有

经过处理,基本是按照数据的原始状态堆砌在一起的,这样业务是很难直接使用的。所以需

要通过数据开发模块实现对数据的加工处理,形成有价值的数据,提供给业务部门使用。

3、数据体系

通过数据汇聚、数据开发,中台就具备了构建数仓平台的基本能力,这一块其实就是将采集

过来的各种数据按照数仓的标准进行建设。

4、数据资产管理

通过数仓建立起来的数据资产比较偏向于技术,业务人员比较难理解,资产管理是以业务人

员更好理解的方式,把数据资产展现给企业的业务人员。

5、数据服务体系

数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数

据中台,数据服务体系是数据中台存在的价值所在。

6、数据运营体系

是数据中台得以健康、持续运转的基础

7、数据安全管理

是为了保证数据中台中的数据安全。

这是一个典型的数据中台总体架构设计。

二、数据中台四字箴言

如果大家之前没有工作过的话,可能对数据中台还是不好理解,所以在这我将数据中台的功

能总结为四个字:采、存、通、用

下面我们来详细分析一下这四字箴言

1、采

采:表示采集的意思,就是采集企业中的所有数据。

随着互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始多元化,数据的产生

形式也是多样化的,对应的就需要有多种采集形式。

埋点采集、硬件采集、爬虫采集、数据库采集、日志采集。

埋点采集:一般是采集用户行为信息,例如用户在平台上的浏览、点击、停留等行为。

硬件采集:指的是物联网数据采集,例如通过无人机传感器来采集空气质量指标。

爬虫采集:指的是采集互联网上的公开数据,例如:电商平台竞品价格采集。

数据库采集:一般是采集企业内的业务数据,例如:用户交易数据、用户个人信息数据等。

日志采集:一般是采集软件运行时产生的日志。

这些是常见的采集形式。

从数据组织形式可以分为:结构化数据、半结构化数据、非结构化数据。

结构化数据:数据规则、完整、能够通过二维逻辑来表现的数据,严格遵守数据格式与长度

规范,常见的有数据库中的数据、excel中的数据。

半结构化数据:数据规则、完整,同样严格遵守数据格式与长度规范,但无法通过二维关系

来表现,常见的有JSON、XML等格式的数据。

非结构化数据:数据结构不规则或不完整,不方便用二维逻辑表来表现,需要经过复杂的逻

辑处理才能提取其中的信息内容,常见的有word文档、图片、视频、音频等数据。

从数据的时效性上来划分,可以分为:离线数据、实时数据。

离线数据:主要用于大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数

据同步的形式,通过连接读取数据,读取数据过程中可以有全量、增量的方式,经过统一处

理后写入到目标存储。

实时数据:主要面向低延时的数据应用场景,一般通过实时监控的方式实现,例如通过读取

数据库的binlog日志来实现数据库的实时数据采集。

前面我们针对数据的采集形式、数据的组织形式、数据的时效性进行了分析,那这些数据在

采集的时候具体应该使用什么类型的工具呢?

常见的采集工具有:Flume、FileBeat、Logstash、Sqoop、Canal、DataX等。

其中Flume、FileBeat、Logstash适合采集日志数据,这三个组件的特性在前面项目课程中

已经详细分析过了,在这不再赘述。

sqoop是在结构化数据和HDFS之间进行批量数据迁移的工具,适合批量采集数据库中的数

据,它的主要优势是,在特定场景下,数据交换过程会有很大的性能提升。主要缺点是处理

过程定制程度较高,需要在脚本中调整配置参数实现,在用户的一些自定义

文档评论(0)

动点策划 + 关注
官方认证
服务提供商

动点策划通过提供各行各业经典策划案例,策划思路,行业必威体育精装版动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。

认证主体迈通人才资源咨询(广东)有 限公司
IP属地广东
统一社会信用代码/组织机构代码
914400007224748147

1亿VIP精品文档

相关文档