5.2.1DStream操作概述 (1)讲解.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SparkStreaming实时计算框架项目5主讲教师:郭亚东共有3个任务

任务介绍5.2Spark中的DStreamDStream操作概述DStream转换操作DStream窗口操作DStream输出操作

DStream简介SparkCoreRDD数据抽象SparkSQLDataFrame数据抽象SparkStreamingDStream数据抽象DStream其实是SparkStreaming提供的一个高级抽象的流,这个流又被称为离散流。它本质上就是RDD。

DStream简介DStream创建通过一些数据源来创建。通过现有DStream的高级操作来创建。

DStream简介Dstream的内部结构每个Dstream里边由很多RDD组成。图中描述了4个RDD,每个RDD都是一小段时间分隔的数据集。是把连续的数据从0秒到1秒之间进行拆分得到的。是从1秒到2秒之间的数据拆分得到的RDD。实际上,对Dstream的任何操作,最终都会转变成对底层RDD的操作。

DStream编程模型DStream编程模型

DStream编程模型DStream编程模型

DStream编程模型DStream编程模型

DStream编程模型DStream编程模型SparkStreaming将实时的数据分解成一系列小的批处理任务,批处理引擎SparkCore把输入的数据按照一定的时间片(如1s)分成一段一段的数据,每一段数据都会转换成RDD输入到SparkCore中,然后将DStream操作转换为RDD算子的相关操作,即转换操作、窗口操作以及输出操作。RDD算子操作产生的中间结果数据会保存在内存中,也可以将中间的结果数据输出到外部存储系统中进行保存。

SparkStreaming工作机制集群资源管理器

SparkStreaming工作机制套接字流文件流从kafka中读取的输入流InputDstream类型非常多

SparkStreaming工作机制receiver组件挂接

编写SparkStreaming程序的基本步骤创建输入DStream输入源定义对文件进行监控通过Kafka抛数据构建一个RDD队列文件流Kafka数据流RDD队列流数据源头1

编写SparkStreaming程序的基本步骤2转换操作和输出操作定义流计算

编写SparkStreaming程序的基本步骤3streamingContext.start()方法开始接收数据和处理流程

编写SparkStreaming程序的基本步骤4streamingContext.awaitTermination()方法等待处理结束

编写SparkStreaming程序的基本步骤5streamingContext.stop()方法手动结束流计算进程

创建StreamingContext对象怎么能够创建StreamingContex对象?为什么创建StreamingContext对象?上面的几个步骤里面有个对象叫streamingContext对象

创建StreamingContext对象进行SparkCore的RDD编程SparkContext对象创建

创建StreamingContext对象

创建StreamingContext对象变量名称:spark

创建StreamingContext对象进入Spark-Shell交互式环境后,它会默认生成一个SparkContext对象

创建StreamingContext对象导入包SparkContextSparkStreamingContext

创建StreamingContext对象通过这个方式声明了一个StreamingContext对象ssc。构造这个对象时需要给它输入2个参数:一个是SC,就是要把那个SparkContext对象作为输入参数;另一个是Seconds(1),表示多长时间作为一个周期去切分的数据流。

创建StreamingContext对象如果是编写一个独立的SparkStreaming程序,需要在代码中创建StreamingContext对象。声明一个SparkContext对象conf

DStream简介DStream编程模型小结SparkStreaming工作机制编写SparkStreaming程序的基本步骤创建StreamingContext对象

谢谢观看THANKS

文档评论(0)

vermonth155-2娟 + 关注
实名认证
内容提供者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档