第7讲大数据架构设计理论与实践Lambda 架构与Kappa 架构的对比和设计选择.pptx

下载文档

0
0
约3.07千字
约 14页
2025-02-21 发布于云南
举报
版权申诉
保障服务

第7讲大数据架构设计理论与实践Lambda 架构与Kappa 架构的对比和设计选择.pptx

1、本文档共14页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十九章大数据架构设计理论与实践Lambda架构和Kappa架构的对比和设计选择系统架构设计师第二版

综合知识精讲培训课讲师：邵宗其

考点分析本章主要学习大数据方向软件架构的发展和工作中的实践。根据考试大纲，本小时知识点会涉及案例分析题和论文题（各占25分）。本小时内容侧重于理解性记忆，按照以往的出题规律，部分基础知识点来源于教材，部分考查内容需要灵活运用相关知识点。知识架构如图所示。大数据架构设计理论与实践

Lambda架构与Kappa架构的特性对比计算机开销复杂度维护成本对比内容Lamada架构Kappa架构复杂度与开发、维护成本需要维护两套系统(引擎),复杂度高，开发、维护成本高只需要维护一套系统(引擎),复杂度低，开发、维护成本低计算开销需要一直运行批处理和实时计算，计算开销大必要时进行全量计算，计算开销相对较小实时性满足实时性满足实时性历史数据处理能力批式全量处理，吞吐量大，历史数据处理能力强流式全量处理，吞吐量相对较低，历史数据处理能力相对较弱实时性历史数据处理能力

Lambda架构与Kappa架构的特性对比复杂度维护成本对于大数据系统的评价与比较，首先需要考虑这个系统开发、上线的难度，以及这个系统是否能够以足够低的成本进行维护。因为需要开发并维护两套系统，Lambda架构的复杂度相对更高。其中，一套负责进行离线的批处理计算，一般选择使用Hadoop作为批处理系统，将批处理结果View保存到HBase中；另一套需要进行实时的流式计算，一般选择Storm、Spark作为流处理系统，流式计算结果将保存到Redis中。Lambda架构需要分别在批处理和实时计算系统上面运行两套代码，这两套代码产出相同范式的结果。并且，在进行全量计算时，批处理系统还需要长时间保持运行以保证离线运算结果的正确性。这样的开发维护成本相对较高。Kappa架构的复杂度相对低很多，只需要开发并维护一套系统。因为Kafka对于流式计算有良好支持，易于编程，故一般使用Kafka作为消息中间件，将数据保存在消息队列中。流式计算系统一般使用Flink实现，其作为新兴的流处理框架，以数据并行和流水线方式执行任意流数据程序，且同时支持批处理和流处理。开发维护成本相对较低。

Lambda架构与Kappa架构的特性对比计算机开销在使用大数据系统进行数据处理时，需要知道数据的存储位置。由于数据量的持续增长，计算对I/O的需求增长速度已经远远超过网络带宽的扩容速度，故在计算时的开销也是大数据系统的考虑因素之一。Lambda架构在计算时，需要让数据同时支持批处理层系统和流处理层系统运行，且在运行时批处理系统和流处理系统都不能停机，否则将会有View的合并错误、计算开销大等问题。Kappa架构的数据存储只需要面对流式计算，且只需要在必要时进行全量计算，计算消耗小。

Lambda架构与Kappa架构的特性对比实时性实时性要求系统对于一个服务调用可以进行快速响应。快速的定义可能从几毫秒到几秒，取决于用户对于这一功能响应速度的具体要求。在大数据系统中，用户对于快速的要求往往集中在随机读取功能。Lambda架构和Kappa架构都能够对数据进行实时处理并进行服务的响应。Lambda架构的策略在于使用满足幺半群(Monoid)性质的数据View模型，对批处理层和速度层的输出进行统一管理，这样在新数据到达时，速度层可以实时处理数据得到必威体育精装版View,然后和批处理层的View相结合，得到必威体育精装版的实时结果。这样做的优点是将实时处理变成了批处理和流处理结果的结合，稳定且实时计算成本可控。Kappa架构的策略是使用Kafka或者类似的分布式消息中间件，用消息队列进行数据的保存，采用并发计算，如果不需要全量计算则直接读出数据。如果需要全量计算，则重新启动一个新的流式计算实例，将所有数据重新读取、计算，直到计算结果完成并超越了原来的结果，再删除原结果，使新结果成为可读取数据。在进行实时的流式数据处理时，如果有大量不同的实时流同时计算，由于算法要求进行关联，十分考验实时计算系统的能力。同时可能因为数据流的先后顺序、算法逻辑等问题导致数据丢失。

Lambda架构与Kappa架构的特性对比历史数据处理能力大数据系统在进行数据处理时，可能需要从大量历史数据中提取出对用户有价值的数据。Lambda架构在设计上可以在批处理层中对于超大规模的历史数据进行批量计算。由于批处理层和速度层使用不同的计算系统，在进行批量数据处理时速度层的实时计算仍然可以运行且不受影响。而Kappa架构对于大量历史数据的处理能力相对Lambda则相对较弱。Kappa在设计上使用了消息队列对数据进行

您可能关注的文档

文档评论（0）

邵宗其 + 关注: 实名认证

内容提供者

信息系统项目管理师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年07月25日上传了信息系统项目管理师

1亿VIP精品文档

更多 >

第7讲大数据架构设计理论与实践Lambda 架构与Kappa 架构的对比和设计选择.pptx