- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SparkStreaming实时计算框架项目5主讲教师:郭亚东共有3个任务
任务介绍5.2Spark中的DStreamDStream操作概述DStream转换操作DStream窗口操作DStream输出操作
DStream简介SparkCoreRDD数据抽象SparkSQLDataFrame数据抽象SparkStreamingDStream数据抽象DStream其实是SparkStreaming提供的一个高级抽象的流,这个流又被称为离散流。它本质上就是RDD。
DStream简介DStream创建通过一些数据源来创建。通过现有DStream的高级操作来创建。
DStream简介Dstream的内部结构每个Dstream里边由很多RDD组成。图中描述了4个RDD,每个RDD都是一小段时间分隔的数据集。是把连续的数据从0秒到1秒之间进行拆分得到的。是从1秒到2秒之间的数据拆分得到的RDD。实际上,对Dstream的任何操作,最终都会转变成对底层RDD的操作。
DStream编程模型DStream编程模型
DStream编程模型DStream编程模型
DStream编程模型DStream编程模型
DStream编程模型DStream编程模型SparkStreaming将实时的数据分解成一系列小的批处理任务,批处理引擎SparkCore把输入的数据按照一定的时间片(如1s)分成一段一段的数据,每一段数据都会转换成RDD输入到SparkCore中,然后将DStream操作转换为RDD算子的相关操作,即转换操作、窗口操作以及输出操作。RDD算子操作产生的中间结果数据会保存在内存中,也可以将中间的结果数据输出到外部存储系统中进行保存。
SparkStreaming工作机制集群资源管理器
SparkStreaming工作机制套接字流文件流从kafka中读取的输入流InputDstream类型非常多
SparkStreaming工作机制receiver组件挂接
编写SparkStreaming程序的基本步骤创建输入DStream输入源定义对文件进行监控通过Kafka抛数据构建一个RDD队列文件流Kafka数据流RDD队列流数据源头1
编写SparkStreaming程序的基本步骤2转换操作和输出操作定义流计算
编写SparkStreaming程序的基本步骤3streamingContext.start()方法开始接收数据和处理流程
编写SparkStreaming程序的基本步骤4streamingContext.awaitTermination()方法等待处理结束
编写SparkStreaming程序的基本步骤5streamingContext.stop()方法手动结束流计算进程
创建StreamingContext对象怎么能够创建StreamingContex对象?为什么创建StreamingContext对象?上面的几个步骤里面有个对象叫streamingContext对象
创建StreamingContext对象进行SparkCore的RDD编程SparkContext对象创建
创建StreamingContext对象
创建StreamingContext对象变量名称:spark
创建StreamingContext对象进入Spark-Shell交互式环境后,它会默认生成一个SparkContext对象
创建StreamingContext对象导入包SparkContextSparkStreamingContext
创建StreamingContext对象通过这个方式声明了一个StreamingContext对象ssc。构造这个对象时需要给它输入2个参数:一个是SC,就是要把那个SparkContext对象作为输入参数;另一个是Seconds(1),表示多长时间作为一个周期去切分的数据流。
创建StreamingContext对象如果是编写一个独立的SparkStreaming程序,需要在代码中创建StreamingContext对象。声明一个SparkContext对象conf
DStream简介DStream编程模型小结SparkStreaming工作机制编写SparkStreaming程序的基本步骤创建StreamingContext对象
谢谢观看THANKS
您可能关注的文档
- 5G设备安装 (1)讲解.pptx
- 5.1 以太网帧协议介绍 (1)讲解.pptx
- 5.1.2 模块的制作 (1)讲解.pptx
- 5.1.2 中国古代绘画 (1)讲解.pptx
- 5.1.2ip地址的分类 (1)讲解.pptx
- 5.1.3ip地址与硬件地址 (1)讲解.pptx
- 5.1.4 库的打包 (1)讲解.pptx
- 5.1.4 中国古代雕塑 (1)讲解.pptx
- 5.1.6 re模块的导入和使用 (1)讲解.pptx
- 5.1.6子网掩码 (1)讲解.pptx
- 2024年小学教师工作计划模板(八篇) .pdf
- 2024年药学类之药学(师)题库检测试卷B卷附答案 .pdf
- 2024年必威体育精装版仁爱版五年级数学(上册)期中考卷及答案(各版本) .pdf
- 2024年高中生个人职业生涯规划 .pdf
- 2024年法律职业资格之法律职业客观题二题库与答案 .pdf
- 2024年资产评估师之资产评估基础真题练习试卷B卷附答案 .pdf
- 2024年度社工(初级)《社会工作实务(初级)》考试典型题题库及答案.pdf
- 2024年新员工下半年工作计划范文(3篇) .pdf
- 2024年律师委托代理合同标准版本(三篇) .pdf
- 2024年股权抵押借款合同范本(4篇) .pdf
文档评论(0)