第5讲大数据架构设计理论与实践Kappa 架构介绍.pptx

下载文档

0
0
约2.33千字
约 10页
2025-02-21 发布于云南
举报
版权申诉
保障服务

第5讲大数据架构设计理论与实践Kappa 架构介绍.pptx

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十九章大数据架构设计理论与实践Kappa架构系统架构设计师第二版

综合知识精讲培训课讲师：邵宗其

考点分析本章主要学习大数据方向软件架构的发展和工作中的实践。根据考试大纲，本小时知识点会涉及案例分析题和论文题（各占25分）。本小时内容侧重于理解性记忆，按照以往的出题规律，部分基础知识点来源于教材，部分考查内容需要灵活运用相关知识点。知识架构如图所示。大数据架构设计理论与实践

Kappa架构下对大数据的理解(1)WhenWhen是指数据是与时间相关的，数据一定是在某个时间点产生的。比如Log日志就隐含着按照时间先后顺序产生的数据，Log前面的日志数据一定先于Log后面的日志数据产生；消息系统中消息的接收者一定是在消息的发送者发送消息后接收到的消息。相比于数据库，数据库中表的记录就丢失了时间先后顺序的信息，中间某条记录可能是在最后一条记录产生后发生更新的。对于分布式系统，数据的时间特性尤其重要。分布式系统中数据可能产生于不同的系统中，时间决定了数据发生的全局先后顺序。比如对一个值做算术运算，先+2,后+3,与先+3,后+2,得到的结果完全不同。数据的时间性质决定了数据的全局发生先后，也就决定了数据的结果。数据的特性数据系统=数据+查询whenwhat

Kappa架构下对大数据的理解(2)WhatWhat是指数据的本身。由于数据跟某个时间点相关，所以数据的本身是不可变的(Immutable),过往的数据已经成为事实(Fact),你不可能回到过去的某个时间点去改变数据事实。这也就意味着对数据的操作其实只有两种：读取已存在的数据和添加更多的新数据。采用数据库的记法，CRUD就变成了CR,Update和Delete本质上其实是新产生的数据信息，用C来记录。数据的特性数据系统=数据+查询whenwhat

Kappa架构下对大数据的理解通过采用不可变方式存储所有的数据，可以有如下好处：(1)简单。采用不可变的数据模型，存储数据时只需要简单地往主数据集后追加数据即可。相比于采用可变的数据模型，为了Update操作，数据通常需要被索引，从而能快速找到要更新的数据去做更新操作。(2)应对人为和机器的错误。前述中提到人和机器每天都可能会出错，如何应对人和机器的错误，让系统能够从错误中快速恢复极其重要。不可变性(Immutability)和重新计算(Re-computation)则是应对人为和机器错误的常用方法。采用可变数据模型，引发错误的数据有可能被覆盖而丢失。相比于采用不可变的数据模型，因为所有的数据都在，引发错误的数据也在。修复的方法就可以简单的是遍历数据集上存储的所有的数据，丢弃错误的数据，重新计算得到Views。重新计算的关键点在于利用数据的时间特性决定的全局次序，依次顺序重新执行，必然能得到正确的结果。当前业界有很多采用不可变数据模型来存储所有数据的例子。比如分布式数据库Datomic,基于不可变数据模型来存储数据，从而简化了设计。分布式消息中间件Kafka,基于Log日志，以追加append-only的方式来存储消息。数据的存储数据系统=数据+查询不可变

Kappa架构介绍Kappa只会通过流计算一条的数据链路计算并产生视图。Kappa同样采用了重新处理事件的原则，对于历史数据分析类的需求，Kappa要求数据的长期存储能够以有序日志流的方式重新流入流计算引擎，重新产生历史数据的视图。本质上是通过改进Lambda架构中的SpeedLayer,使它既能够进行实时数据处理，同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据。Kappa架构的原理就是：在Lambda的基础上进行了优化，删除了BatchLayer的架构，将数据通道以消息队列进行替代。因此对于Kappa架构来说，依旧以流处理为主，但是数据却在数据湖层面进行了存储，当需要进行离线分析或者再次计算的时候，则将数据湖的数据再次经过消息队列重播一次则可。Kappa架构

Kappa架构输入数据直接由实时层的实时数据处理引擎对源源不断的源数据进行处理，再由服务层的服务后端进一步处理以提供上层的业务查询。而中间结果的数据都是需要存储的，这些数据包括历史数据与结果数据，统一存储在存储介质中。Kappa方案通过精简链路解决了数据写入和计算逻辑复杂的问题，但它依然没有解决存储和展示的问题，特别是在存储上，使用类似Kafka的消息队列存储长期日志数据，数据无法压缩，存储成本很大，绕过方案是使用支持数据分层存储的消息系统(如Pulsar,支持将历史消息存储到云上存储系统),但是分层存储的历史日志数据仅能用于Kappabackfill作业，数据的利用率依然很低。Kappa架构

您可能关注的文档

文档评论（0）

邵宗其 + 关注: 实名认证

内容提供者

信息系统项目管理师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年07月25日上传了信息系统项目管理师

1亿VIP精品文档

更多 >

第5讲大数据架构设计理论与实践Kappa 架构介绍.pptx