大厂学苑-数据人工智能实时数仓.pdfVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第1章实时数仓概述

1.1实时计算实时数仓

普通的实时计算优先考虑时效性,所以从数据源经过实时计算直接得到结果。如此

做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时

需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。

实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数

据的复用性。

1.2实时数仓分层

数据仓库为什么要分层?

1.把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便

定位问题。

2.

3.原始数据:不论是数据的异常还是数据的敏感性,使真实数据和统计数据解耦开。

ODS:原始数据,日志和业务数据

DWD:根据数据对象为单位进行分流,比如订单、页面等等

DIM:维度数据

DWM:对于部分数据对象进行进一步加工,比如独立、跳出行为,也可以和维度

进行关联,形成宽表,依旧是明细数据。

DWS:根据某个将多个事实数据轻度聚合,形成宽表。

1.3实时需求种类

1.3.1日常统计报表

1.3.2实时大屏

数据大屏,相对于BI工具或者数据分析平台是更加直观的数据可视化方式。尤其是一

些大促活动,已经成为必备的一种。

另外还有一些特殊行业,比如交通、电信的行业,那么大屏几乎是必备的。

1.3.3数据提示

经过大数据实时计算得到的一些风控、信息提示,能够快速让风控或部分

得到信息,以便采取各种应对。

比如,用户在、金中正在进行一些或类操作,那么大数据实时计算

可以快速的将情况筛选出来发送风控部门进行处理,甚至自动。或者检测到用户的行

为对于某些商品具有较强的意愿,那么可以把这些“商机”推送给部门,让进行

主动的跟进。

1.3.4实时推荐系统

实时推荐就是根据用户的自身属性结合当前的行为,经过实时的推荐算法计算,从

而将用户可能喜欢的商品、、等推送给用户。

这种系统一般是由一个用户批处理加一个用户行为分析的流处理组合而成。

第2章实时数仓架构分析

2.1实时架构

2.2

用户行为数据:用户在使用产品时,与客户端产品交互过程中所产生的数据,比如

页面浏览,点击,停留,评论,点赞,收藏等

2.3数据

中。

业务数据库中的数据一般通过第工具同步推送到Kafka中。

2.4数据计算

数据计算采用流批一体计算引擎Flink,这样应用成本低。

2.5数据展示

第3章业务同步

3.1Maxwell介绍

Mysql数据实时同步可以通过解析Mysql的binlog的方式来实现,解析binlog可以有

多种方式,可以通过Canal,或者Maxwell等各种方式实现。以下是各种抽取方式的对比介绍:

其中Canal由Java开发,分为服务端和客户端,拥有众多的衍生应用,性能稳定,功

能强大;Canal需要自己编写客户端来消费Canal解析到的数据。

Maxwell相对于Canal的优势是使用简单,Maxwell比Canal更加轻量级,它直接将数

据变更输出为JSON字符串,不需要再编写客户端。对于缺乏基础建设,短时间内需要

快速迭代的项目和公司比较合适。

另外Maxwell有一个亮点功能,就是Canal只能抓取数据,对已存在的数据

没有办法处理。而Maxwell有一个bootstrap功能,可以直接出完整的数据

文档评论(0)

158****9376 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档