网站大量收购独家精品文档,联系QQ:2885784924

Spark大数据分析与实战(Python+PySpark)课件 第5章 Spark编程进阶.pptx

Spark大数据分析与实战(Python+PySpark)课件 第5章 Spark编程进阶.pptx

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第5章Spark编程进阶Spark大数据分析与实战

01搭建PySpark开发环境理解RDD0203RDD缓存机制目录CONTENTS04广播变量和累加器05Spark生态和应用程序架构06Spark集群和应用部署

01搭建PySpark开发环境PySpark编程环境JupyterNotebook编程环境PyCharm集成开发环境

PySpark编程环境在PySpark交互式编程环境中,只要输入一条语句,就会自动提交执行并显示运行结果。在Python软件库中也存在一个名为pyspark的软件包,可以脱离外部Spark运行环境而独立存在,对于第三方开发工具如PyCharm、VScode等更加方便在第1章配置了pip3命令用于管理python3.8的软件包,pip则被设置为管理python3.6的软件包。也可以使用命令sudopython3.6-mpipinstallpyspark==2.4.8py4j==0.10.7

PySpark编程环境Spark框架内置的pyspark(PySparkShell)与Python环境中安装的pyspark到底有什么区别,可以从以下3个方面理解运行环境不同。从pip源安装的pyspark本质是一个Python扩展库,它可在Python交互式编程环境或任何支持Python的集成开发环境中引入和使用。Spark框架内置的pyspark只能通过运行pyspark命令脚本来启动,它实际是一个工具命令程序功能不同。从pip源安装的pyspark库仅限于在Python环境下使用,需要在代码中通过import导入。Spark框架则提供了多语言版本的交互式编程环境,包括pyspark(Python版)、spark-shell(Scala版,默认)和sparkR(R版)等多种交互式编程工具,它们都是Spark框架提供的命令工具,所以统称为SparkShell,而pyspark只是其中之一使用方式不同。从pip源安装的pyspark库在导入后,需要手动创建spark和sc入口对象变量,而Spark框架自带的pyspark命令启动后,会自动创建spark和sc入口对象变量,对初学者来说更为方便易用

PySpark编程环境安装好pyspark库,就可以在各种Python的编程环境中使用这里必须手动创建SparkContext对象才能进行后续操作,其他Python开发工具使用pyspark库时也是如此

JupyterNotebook编程环境JupyterNotebook是一个类似网页笔记形式的Web编程工具,支持在网页中直接编写和运行代码,并能够以文本、图表嵌入等方式输出运行结果,适用于数据清洗、数据可视化、机器学习等场合安装findspark库,它的作用是使pyspark库在JupyterNotebook网页中能够像一个普通Python模块那样导入和使用

JupyterNotebook编程环境稍候浏览器中会显示JupyterNotebook的初始界面找到浏览器页面右上角区域,选择New下拉列表中的Python3选项,此时会新打开一个JupyterNotebook页面,Spark代码就是在这个页面中来编写的

JupyterNotebook编程环境在JupyterNotebook页面中编写代码的方式,与在普通的Python编程环境中基本一样,唯一不同的是,在执行代码之前,必须先运行一次findspark.init()方法,只需在当前JupyterNotebook页面中执行一次即可,不用重复执行

JupyterNotebook编程环境JupyterNotebook页面是由一些称为Cell的格子行构成的,用户可以像在普通文档中一样在格子里编写代码或文本内容当Notebook页面的Cell行代码在运行时,当前Cell行的左端会有一个“[*]”提示,浏览器背后的Linux终端也会显示一些日志信息,在遇到问题时这可以作为一个参考的线索

PyCharm集成开发环境PyCharm就是一个功能强大的跨平台开发环境,主要用于Python的开发,支持代码分析、图形化调试,集成测试器、集成版本控制等特性,分为社区版和专业版两种,这里使用的是免费的社区版

PyCharm集成开发环境选择PyCharm初始窗体左侧的Projects选项,然后单击右侧的NewProject按钮启动新建Python项目,项目创建完毕,PyCharm会切换至项目开发窗体

PyCharm集成开发环境在打开的代码编辑器中将main.py文件的原有代码全部清除,输入下面的Spark测试代码与PySparkShell、Python、JupyterNotebook等交互式编程环境不同的是,PyCharm在运行代码时不

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档