- 1、本文档共90页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第5章Spark编程进阶Spark大数据分析与实战
01搭建PySpark开发环境理解RDD0203RDD缓存机制目录CONTENTS04广播变量和累加器05Spark生态和应用程序架构06Spark集群和应用部署
01搭建PySpark开发环境PySpark编程环境JupyterNotebook编程环境PyCharm集成开发环境
PySpark编程环境在PySpark交互式编程环境中,只要输入一条语句,就会自动提交执行并显示运行结果。在Python软件库中也存在一个名为pyspark的软件包,可以脱离外部Spark运行环境而独立存在,对于第三方开发工具如PyCharm、VScode等更加方便在第1章配置了pip3命令用于管理python3.8的软件包,pip则被设置为管理python3.6的软件包。也可以使用命令sudopython3.6-mpipinstallpyspark==2.4.8py4j==0.10.7
PySpark编程环境Spark框架内置的pyspark(PySparkShell)与Python环境中安装的pyspark到底有什么区别,可以从以下3个方面理解运行环境不同。从pip源安装的pyspark本质是一个Python扩展库,它可在Python交互式编程环境或任何支持Python的集成开发环境中引入和使用。Spark框架内置的pyspark只能通过运行pyspark命令脚本来启动,它实际是一个工具命令程序功能不同。从pip源安装的pyspark库仅限于在Python环境下使用,需要在代码中通过import导入。Spark框架则提供了多语言版本的交互式编程环境,包括pyspark(Python版)、spark-shell(Scala版,默认)和sparkR(R版)等多种交互式编程工具,它们都是Spark框架提供的命令工具,所以统称为SparkShell,而pyspark只是其中之一使用方式不同。从pip源安装的pyspark库在导入后,需要手动创建spark和sc入口对象变量,而Spark框架自带的pyspark命令启动后,会自动创建spark和sc入口对象变量,对初学者来说更为方便易用
PySpark编程环境安装好pyspark库,就可以在各种Python的编程环境中使用这里必须手动创建SparkContext对象才能进行后续操作,其他Python开发工具使用pyspark库时也是如此
JupyterNotebook编程环境JupyterNotebook是一个类似网页笔记形式的Web编程工具,支持在网页中直接编写和运行代码,并能够以文本、图表嵌入等方式输出运行结果,适用于数据清洗、数据可视化、机器学习等场合安装findspark库,它的作用是使pyspark库在JupyterNotebook网页中能够像一个普通Python模块那样导入和使用
JupyterNotebook编程环境稍候浏览器中会显示JupyterNotebook的初始界面找到浏览器页面右上角区域,选择New下拉列表中的Python3选项,此时会新打开一个JupyterNotebook页面,Spark代码就是在这个页面中来编写的
JupyterNotebook编程环境在JupyterNotebook页面中编写代码的方式,与在普通的Python编程环境中基本一样,唯一不同的是,在执行代码之前,必须先运行一次findspark.init()方法,只需在当前JupyterNotebook页面中执行一次即可,不用重复执行
JupyterNotebook编程环境JupyterNotebook页面是由一些称为Cell的格子行构成的,用户可以像在普通文档中一样在格子里编写代码或文本内容当Notebook页面的Cell行代码在运行时,当前Cell行的左端会有一个“[*]”提示,浏览器背后的Linux终端也会显示一些日志信息,在遇到问题时这可以作为一个参考的线索
PyCharm集成开发环境PyCharm就是一个功能强大的跨平台开发环境,主要用于Python的开发,支持代码分析、图形化调试,集成测试器、集成版本控制等特性,分为社区版和专业版两种,这里使用的是免费的社区版
PyCharm集成开发环境选择PyCharm初始窗体左侧的Projects选项,然后单击右侧的NewProject按钮启动新建Python项目,项目创建完毕,PyCharm会切换至项目开发窗体
PyCharm集成开发环境在打开的代码编辑器中将main.py文件的原有代码全部清除,输入下面的Spark测试代码与PySparkShell、Python、JupyterNotebook等交互式编程环境不同的是,PyCharm在运行代码时不
您可能关注的文档
- Spark大数据分析与实战(Python+PySpark)课件 第1章 Spark大数据平台与环境搭建.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第2章 SparkRDD离线数据计算.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第3章 SparkSQL离线数据处理.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第4章 SparkStreaming流数据计算.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第6章 Spark大数据分析综合案例.pptx
- Spark大数据分析与实战(Python+PySpark)课件全套 第1--6章 Spark大数据平台与环境搭建---- Spark大数据分析综合案例.pptx
- 2024江西江铃专用车辆厂有限公司招聘60人笔试参考题库附带答案详解 .docx
- 2024河南安建建设工程管理有限责任公司招聘笔试参考题库附带答案详解 .docx
- 2024年安徽黄山阳光电力维修工程有限公司招聘29人(第一批次)笔试参考题库附带答案详解 .docx
- 2024年度国铁融资租赁有限公司第一批公开招聘14人笔试参考题库附带答案详解 .docx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
最近下载
- 2024年浙江省金华市义乌市稠州中学中考三模科学试题(解析版).docx VIP
- 《电子商务基础与实务》项目化教学单元设计().doc
- 浙江省金华市义乌市稠州中学2024年中考适应考试(三模)科学试卷.doc VIP
- 2025年郑州医药健康职业学院单招职业技能测试题库必考题.docx VIP
- 2024年郑州医药健康职业学院单招职业技能测试题库必考题.docx VIP
- 2024年浙江省金华市义乌市中考数学二模试卷.doc VIP
- 浙江省金华市义乌市2024年中考语文二模试卷附参考答案.pptx VIP
- 2025年郑州医药健康职业学院单招职业技能测试题库及答案(各地真题).docx VIP
- 新媒体时代网络谣言传播及其治理策略研究.pdf
- 2025年郑州医药健康职业学院单招职业技能测试题库(历年真题).docx VIP
文档评论(0)