第7章 Spark Streaming实时流处理引擎.pptxVIP

下载本文档

0
0
约2.36万字
约 76页
2025-01-09 发布于陕西
举报
版权申诉

第7章 Spark Streaming实时流处理引擎.pptx

1、本文档共76页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主讲人：xxx《Spark》大数据处理技术

SparkStreaming实时流处理引擎第7章

第7章SparkStreaming实时流处理引擎本章小结7.5DStream转换操作7.4DStream输入7.3SparkStreaming程序开发7.2初探SparkStreaming7.1离线计算与实时计算

7.1离线计算与实时计算本章主要介绍SparkStreaming相关基础概念、基本工作原理、程序开发，以及在SparkStreaming离散流基础上讲解DStream输入源、转换和输出等操作。读者应在理解相关概念的基础上能够使用SparkStreaming进行程序开发，同时能够灵活运用DStream高级操作。

7.1离线计算与实时计算7.1.1离线计算离线计算，通常也被称为“批处理”，是指计算开始前对已知所有静态数据（数据源有边界）进行集中处理过程，具有较高的延时。MapReduce就是一个离线计算框架，SparkSQL也通常用于离线计算任务。7.1.2实时计算实时计算，通常也称为“实时流计算”、“流式计算”，是指实时或低延时的流数据处理过程。目前比较流行的实时框架有SparkStreaming、Storm和Flink。7.1.3离线计算与实时计算比较离线计算实时计算数据来源数据源有界数据源无界数据量数据量大数据量较少处理过程批处理流处理延迟性计算延迟高计算延迟低进程角度进程启动，任务完成销毁线程一直启动，等待数据进入进行处理应用框架MapReduceSparkStreaming/Storm/Flink离线计算与实时计算的比较

7.2初探SparkStreaming7.2.1SparkStreaming简介SparkStreaming是SparkCoreAPI的一种扩展，是一种具有可伸缩、高吞吐量、高容错等特点的实时流处理框架。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis、ZMQ和TCPSocket等，并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window，处理后的数据可以被保存到文件系统、数据库和实时仪表板中，也可以在数据流上应用Spark的机器学习和图形处理算法。SparkStreaming基本计算模型是基于内存的大数据实时计算模型，底层核心组件依然是RDD，SparkStreaming在Spark生态中的位置如图所示。

7.2初探SparkStreaming7.2.2SparkStreaming工作原理在内部结构上，SparkStreaming对SparkCore进行了一层封装，隐藏了许多细节，对开发人员提供了方便易用的高层次API。SparkStreaming会持续不断地接收实时输入数据流，并将数据分成多个批次，然后由Spark引擎处理，最终以批的形式生成结果流，SparkStreaming处理流程与内部结构如图所示。

7.2初探SparkStreamingSparkStreaming提供了称为离散化流或DStream的高级抽象以表示连续的数据流。DStream可以从Kafka、Flume、Kinesis等数据源的输入数据流中创建，也可以通过在其他DStream上应用高级操作来创建。内部，DStream表示为RDD序列，对DStream应用的算子，比如map，在底层会被翻译为对DStream中每个RDD的操作。比如对一个DStream执行一个map操作，会产生一个新的DStream，但在底层会被翻译为，对输入DStream中每个时间段的RDD，都应用一遍map操作，然后生成的新的RDD，即作为新的DStream中的那个时间段的一个RDD。底层RDD的transformation操作如图所示。

7.2初探SparkStreaming从原理上看，把传统的Spark批处理程序变成Streaming程序，Spark需要构建以下内容：一个静态的RDDDAG模板来表示处理逻辑；一个动态的工作控制器，将连续的Streamingdata切分数据片段，并按照模板复制出新的RDD；DAG的实例对数据片段进行处理；Receiver进行原始数据的产生和导入；Receiver将接收到的数据合并为数据块并保存到内存或硬盘中，供后续BatchRDD进行消费；对长时运行任务的保障，包括输入数据失效后的重构，处理任务失败后的重新调用，Streaming数据处理过程如图所示。

7.2初探SparkStreaming7.2.3SparkStreami