二零二三年 优质公开课SparkStreaming示例又是WordCount.pptx

二零二三年 优质公开课SparkStreaming示例又是WordCount.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朱佳目录01流式数据WordCount示例场景案例021流式数据WordCount示例流式数据WordCount示例 使用简单的流示例,在终端中输入一些文本,观察Spark Streaming应用如何捕获流并在不同的终端中处理它。确保Spark shell有足够的内存。准备工作:1. 在服务器的一个窗口中,启动Netcat服务器: $ nc -lk 85852. 在不同的窗口中,启动有足够内存的Spark shell来处理流数据: $ spark-shell driver-memory 1G流式数据WordCount示例 操作步骤:1. 执行一些Spark导入,进行隐式转换。 import org.apache.spark._import org.apache.spark.streaming._import org.apache.spark.streaming.StreamingContext流式数据WordCount示例2. 使用3s批次间隔,并将该值创建StreamingContext:val ssc = new StreamingContext(sc, Seconds(3))3. 在服务器上创建一个SocketTextStream Dstream,指定8585端口,并使用MEMORY_ONLY缓存:val lines = ssc.socketTextStream(“localhost”, 8585)4. 使用WordsFlatMap,将输入切分成分开的单词:val wordsFlatMap = lines.flatMap(_.split(“ ”))流式数据WordCount示例5. 每次出现一个单词,输出键 1,并将单词转换为(word,1):val wordsMap = wordsFlatMap.map( w =(w,1))6. 使用reduceByKey方法计算每个单词的出现次数,并将其作为键:val wordCount = wordsMap.reduceByKey( (a,b) = (a+b))7. 启动StreamingContext:ssc.start流式数据WordCount示例8. 在Netcat运行的第一个服务器上,输入以下行:to be or not to be9. 查看在Spark shell中,WordCount打印的内容2场景案例场景案例Twitter是测试Spark大数据流应用很好的平台。每天发送超过5亿个tweets,因此我们可以使用大量数据。可以将Twitter数据载入Spark,并利用实时数据预测趋势。通常,Spark Streaming 和Apache Kafka配合使用。Apache Kafka是一个分布式的、分区的复制提交日志服务。

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档