网站大量收购闲置独家精品文档,联系QQ:2885784924

Spark大数据分析 课件 第6章 Spark存储原理.pptx

Spark大数据分析 课件 第6章 Spark存储原理.pptx

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

认识SparkStreaming

目录/Contents01什么是流式计算01什么是SparkStreaming01SparkStreaming工作原理

什么是流式计算01

什么是流式计算在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求。1、流式计算诞生背景

什么是流式计算流式处理可以用于两种不同场景:事件流和持续计算。(1)事件流事件流具能够持续产生大量的数据,这类数据最早出现于传统的银行和股票交易领域,也在互联网监控、无线通信网等领域出现、需要以近实时的方式对更新数据流进行复杂分析如趋势分析、预测、监控等。简单来说,事件流采用的是查询保持静态,语句是固定的,数据不断变化的方式。(2)持续计算比如对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、有哪些信誉好的足球投注网站了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况;2、流式计算主要应用场景

什么是SparkStreaming02

什么是SparkStreaming1、基本概念SparkStreaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景。SparkStreaming是Spark的核心组件之一,为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示,SparkStreaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。

什么是SparkStreamingSparkStreaming是SparkcoreAPI的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。SparkStreaming具有如下显著特点。(1)易用性可以像编写离线批处理一样去编写流式程序,支持java/scala/python编程语言(2)容错性SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。(3)易整合性流式处理与批处理和交互式查询相结合非常方便。

什么是SparkStreamingSparkStreaming核心术语(1)离散流(DStream)(2)批数据(batchdata)(3)时间片或批处理时间间隔(batchinterval)(4)窗口长度(windowlength)(5)滑动时间间隔(6)InputDStream

SparkStreaming工作原理03

SparkStreaming工作原理SparkStreaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map、reduce、join和window等。最后,SparkStreaming支持将处理完的数据推送到文件系统、数据库或者实时仪表盘中展示。

SparkStreaming工作原理整个流式计算根据业务的需求可以对中间的结果进行缓存或者存储到外部设备。

感谢大家的聆听

DStream

目录/Contents01什么是DStream02DStream转换操作03DStream输出04SparkStreaming窗口操作

什么是DStream01

什么是DStreamSparkStreaming提供了一种高级的抽象,叫做DStream,英文全称为DiscretizedStream,中文翻译为“离散流”,它代表了一个持续不断的数据流。DStream可以通过输入数据源来创建,比如Kafka、Flume和Kinesis;也可以通过对其他DStream应用高阶函数来创建,比如map、reduce、join、window。

什么是DStreamDStream是spark中继SparkCore的RDD、SparkSQL的DataFrame和DataSet后又一基础的数据类型,是SparkStreaming特有的数据类型。DStream代表了一系列连续的RDD,DStream中每个RDD包含特定时间间隔的数据,存储方式为HashMapTime,RDD。其中

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档