- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark RDD介绍
1. 认识Spark及Spark RDD2. 掌握Python环境下RDD的操作3. 掌握向Spark传递函数
认识Spark1认识Spark RDD2RDD的转化操作及行动操作3向Spark传递函数及Map()的使用4
认识SparkSpark是一个用来实现快速而通用的集群计算的平台。 Spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析过程中是很有意义的。不仅如此,Spark的这种特性还大大减轻了原先需要对各种平台分别管理的负担。 Spark所提供的借口非常丰富。除了提供基于Python、Java、Scala和SQL的简单易用的API以及内建的丰富的程序库以外,Spark还能和其他大数据工具密切配合使用。例如,Spark可以运行在Hadoop集群上,访问包括Cassandra在内的任意Hadoop数据源。
认识Spark RDDSpark RDD-Spar:对数据的核心抽象-弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序的对象集合(比如list和set)。创建出来hours,RDD支持两种类型的操作:转化操作(transformation)和行动操作(action)
RDD基础-Python中创建一个RDDlines=sc.textFile(“README.md”)
RDD转化操作RDD转化操作是返回新RDD的操作用Python实现filter()转化操作inputRDD=sc.textFile(“log.txt”)errorRDD=inputRDD.filter(lambda x:”error”in x)----------------------union的使用errorRDD=inputRDD.filter(lambda x:”error” in x)warningsRDD=inputRDD.filter(lambda x:”warning”in x)badLinesRDD=errorsRDD.union(warningRDD)
RDD谱系图inputRDDbadLinesRDDerrorsRDDwarningsRDDfilterfilterunion
行动操作print “Input had”+badLinesRDD.count()+”concerning lines”print “Here are 10 examples:”for line in badLinesRDD.take(10):print line
向Spark传递函数在Python中传递函数word=rdd.filter(lambda s:”error”in s)def containsError(s): return “error” in sword=rdd.filter(containsError)
Map()的使用Python版计算RDD中各值的平方nums=sc.parallelize([1,2,3,4])squared=nums.map(lambda x:x*x).collect()for num in squared: print “%i”%(num)inputRDD{1,2,3,4}Mapped RDD{1,4,9,16}Filtered RDD{2,3,4}map x=x*xfilter x=x!=1
1.认识Spark及Spark RDD2.RDD的转化操作及行动操作3.向Spark传递函数及Map()的使用
您可能关注的文档
- 二零二三年 优质公开课SNS入门.pptx
- 二零二三年 优质公开课SO2的测定.pptx
- 二零二三年 优质公开课SOLAS公约第I.pptx
- 二零二三年 优质公开课SOLOMO模式.pptx
- 二零二三年 优质公开课SONG‘SCLUB后现代.pptx
- Sonopuls190移动式超声治疗仪.pptx
- 二零二三年 优质公开课Sonopuls固定式超声0815.pptx
- 二零二三年 优质公开课sortBy函数解析.pptx
- SortedMap接口和TreeMap实现类.pptx
- 二零二三年 优质公开课SortShuffle解析.pptx
- 2024年广东省盐田区面向社区工作者、村(社区)党组织书记公开招聘(高频重点复习提升训练)共200题.docx
- 2024年广东省潮安区公开招考12名城市社区专职工作者(高频重点复习提升训练)共200题附带答案题库.docx
- 2024年广东省盐田区面向社区工作者、村(社区)党组织书记公开招聘(高频重点复习提升训练)共200题.docx
- 小学语文教学中游戏化学习的应用探讨教学研究课题报告.docx
- 2024年广东省潮南区社区工作者招募历年(高频重点提升专题训练)共200题题库大全带答案.docx
- 网络教学环境下的数学有效性研究教学研究课题报告.docx
- 高中数学教育中提高学生创造力的探索教学研究课题报告.docx
- 高中历史学科思维导图的实证研究教学研究课题报告.docx
- 学生文化认同对全面发展的重要性教学研究课题报告.docx
- 2024年广东省招考聘用社区工作者13人高频难、易错点练习200题题库大全(培优).docx
文档评论(0)