二零二三年 优质公开课SparkStreaming如何工作.pptx

二零二三年 优质公开课SparkStreaming如何工作.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朱佳 目录0102流式数据Spark如何处理微批次03窗口计算 流式数据1 流式数据 流式数据处理是将输入数据连续输入分散单元的过程。在日常生活中我们都使用过流式数据。例如当观看流媒体视频时,不需要一次下载整个电影。电影数据以小块形式流式传输,不断地播放电影,而在后台继续下载电影的其余部分。流可以来自各种源,如Twitter、Kafka或Flume。流式传输使我们能够实时处理数据(实时分析),这是许多类型分析的关键,例如天气数据和电子股票交易数据。 流式数据 Spark Streaming 是一个Spark组件,可以使用该组件执行实时分析。使用其流式传输功能,Spark可以摄取实时数据流,进行实时分析,只需几秒钟的延迟。 Spark如何处理微批次2 Spark如何处理微批次流式数据是一些持续流入的数据,Spark将其划分为离散的基于时间的片段以方便处理。在创建streamingContext时指定时间片段的长度。StreamingContext是SparkContext的包装,并且充当Spark Streaming 的入口点。流数据被切分成多个批次,每个批次都作为单独的Spark RDD。所以,Spark Streaming在处理流式传输数据时,将其分成小批量,并将它们提供给Spark引擎进行分析。 Spark如何处理微批次确定了用于分析流数据的批处理间隔(称为微批)后,Spark Streaming会在批间隔(例如3s)内收集传入的流数据,并将数据发送到Spark进行处理。批处理间隔的长短取决于Spark可以处理微批次的速度。当然,如果Spark在处理3s间隔的数据时遇到问题,则可能需要将间隔提高到5s。 Spark如何处理微批次TCP SocketKafkaFlumeTwitterOther…ZeroMQ从不同数据源获取的数据输入流Spark Streaming APPFileUIBI ToolsDatabaseApplication经过Spark处理后的数据,他们可以被存储到不同的地方 Spark如何处理微批次通过Spark Streaming发送到Spark Core的微批次当然是一个RDD流。Spark Streaming 以称为离散流(DStream)的抽象形式表示RDD。通过对这个逻辑实体进行操作,从而对底层的RDD进行操作。Spark Streaming 源有两种基本类型:基本源:包括文件和套接字连接。高级源:包括流式传输解决方案,如Apache Kafka和Apache Flume。 窗口计算3 窗口计算使用Spark Streaming 的窗口计算,可以在数据的滑动窗口上应用转换。可以使用以下两个参数配置滑动窗口。窗口长度:参数指定窗口的持续时间,例如1分钟。滑动间隔:此参数确定操作的频率,例如10秒。窗口长度和滑动间隔都必须是批次间隔的倍数。此外,窗口长度需要是滑动间隔的倍数。

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档