- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark快速(kuài sù)大数据分析广东航信爱信诺科技(kējì)公司——研发部2019-04-18第一页,共13页。Spark简介(jiǎn jiè)第二页,共13页。1、Spark的定位:是一个用来实现快速而通用的集群计算平台(píngtái)。2、Spark与Hadoop的联系:Spark扩展了mapreduce计算模型,且支持更多的计算模式,包括交互式查询和流处理。3、Spark的主要特点:能够在内存中进行计算,因而更快。即便是在磁盘上进行复杂的计算,Spark依然比mapreduce更高效。Spark简介(jiǎn jiè)Spark主要(zhǔyào)包含了如下图所示的组件:1、Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与存储系统交互等模块(mó kuài),还包含了对弹性分布式数据集(Resilient Distributed Dataset)的API定义。2、Spark SQL:是Spark操作结构化数据的程序包,通过Spark SQL可以使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。3、Spark Streaming:是Spark提供的对实时数据进行流式计算的组件,如生产环境中的网页服务器日志。4、MLlib:提供机器学习功能的程序库。5、GraphX:操作图的程序库,可以进行并行的图计算。6、集群管理器:为了实现在多个计算节点上高效得伸缩计算,Spark支持在各种集群管理器上运行,包括Hadoop YARN、Apache Mesos以及自带的简易调度器,独立调度器,第七章部分会详细探讨管理器的差异以及如何选择合适的集群管理器。第三页,共13页。核心(héxīn)概念与基本操作第四页,共13页。弹性分布式数据集(Resilient Distributed Dataset, 简称(jiǎnchēng)RDD):RDD的核心特性是分布式与不可变。Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。每一个Spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序通过一个SparkContext对象来访问Spark,使用python shell启动时会自动创建一个SparkContext对象,默认变量名为sc。核心(héxīn)概念与基本操作第五页,共13页。Spark中对数据的所有操作不外乎:1、创建(chuàngjiàn)RDD2、转化已有RDD,即转化操作(transformation):由一个RDD生成一个新的RDD3、调用RDD操作进行求值,即行动操作(action):会对一个RDD计算出一个结果创建(chuàngjiàn)RDD的方式:1、通过已有集合生成,用于原型开发和测试 lines = sc.parallelize([“hello, “hello world])2、从外部存储中读取数据 lines = sc.textFile(/path/to/hello world.txt)核心(héxīn)概念与基本操作转化操作举例:1、filter操作筛选出RDD1中满足条件的元素构成新的RDD,以下意为选出大于5的元素构成新RDD newRDD = oldRDD.filter(lambda x: x 5)2、map操作对RDD1中的每个元素进行函数(hánshù)操作后,将结果构成新的RDD,以下意为对RDD中的每个元素进行平方构成新RDD newRDD = oldRDD.map(lambda x: x ** 2) 3、flatMap操作和map操作类似,但是如果操作后的结果为一个列表,则取出列表中的元素构成新RDD,而非将列表构成新RDD newRDD = oldRDD.flatMap(lambda x: x.split( ))第六页,共13页。核心(héxīn)概念与基本操作其中map()和flatMap()操作的区别(qūbié)如下图所示:第七页,共13页。核心(héxīn)概念与基本操作第八页,共13页。行动操作举例:1、count操作用于RDD计数 print(Input has + errorRDD.count() + error lines ) 2、take操作用于取出RDD默认(mòrèn)排序前n个元素 for line in errorRDD.take(5): print(line)核心(héxīn)概念与基本操作第九页,共13页。操作中可能会设计传递各种(ɡè zhǒnɡ)函数,spark传递函数主要有以下几种方式:1、传递函数较简单,可通过匿名函数 wordRDD = lineRDD.filter(lambda x: word in x)2、传递顶层或
文档评论(0)