二零二三年 优质公开课SparkRDD介绍.pptx

二零二三年 优质公开课SparkRDD介绍.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark RDD介绍 1. 认识Spark及Spark RDD 2. 掌握Python环境下RDD的操作 3. 掌握向Spark传递函数 认识Spark1认识Spark RDD2RDD的转化操作及行动操作3向Spark传递函数及Map()的使用4 认识SparkSpark是一个用来实现快速而通用的集群计算的平台。 Spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析过程中是很有意义的。不仅如此,Spark的这种特性还大大减轻了原先需要对各种平台分别管理的负担。 Spark所提供的借口非常丰富。除了提供基于Python、Java、Scala和SQL的简单易用的API以及内建的丰富的程序库以外,Spark还能和其他大数据工具密切配合使用。例如,Spark可以运行在Hadoop集群上,访问包括Cassandra在内的任意Hadoop数据源。 认识Spark RDDSpark RDD-Spar:对数据的核心抽象-弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序的对象集合(比如list和set)。创建出来hours,RDD支持两种类型的操作:转化操作(transformation)和行动操作(action) RDD基础-Python中创建一个RDDlines=sc.textFile(“README.md”) RDD转化操作RDD转化操作是返回新RDD的操作用Python实现filter()转化操作inputRDD=sc.textFile(“log.txt”)errorRDD=inputRDD.filter(lambda x:”error”in x)----------------------union的使用errorRDD=inputRDD.filter(lambda x:”error” in x)warningsRDD=inputRDD.filter(lambda x:”warning”in x)badLinesRDD=errorsRDD.union(warningRDD) RDD谱系图inputRDDbadLinesRDDerrorsRDDwarningsRDDfilterfilterunion 行动操作print “Input had”+badLinesRDD.count()+”concerning lines”print “Here are 10 examples:”for line in badLinesRDD.take(10):print line 向Spark传递函数在Python中传递函数word=rdd.filter(lambda s:”error”in s)def containsError(s): return “error” in sword=rdd.filter(containsError) Map()的使用Python版计算RDD中各值的平方nums=sc.parallelize([1,2,3,4])squared=nums.map(lambda x:x*x).collect()for num in squared: print “%i”%(num)inputRDD{1,2,3,4}Mapped RDD{1,4,9,16}Filtered RDD{2,3,4}map x=x*xfilter x=x!=1 1.认识Spark及Spark RDD 2.RDD的转化操作及行动操作 3.向Spark传递函数及Map()的使用

您可能关注的文档

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档