大数据分析及应用项目教程(Spark SQL)（微课版）课件第6章 Zepplin数据可视化.pptx

下载文档

0
0
约2.89千字
约 30页
2024-11-07 发布于山东
举报
版权申诉
保障服务

大数据分析及应用项目教程(Spark SQL)（微课版）课件第6章 Zepplin数据可视化.pptx

1、本文档共30页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

6Zepplin数据可视化

Zepplin安装部署第一部分下载与安装测试运行Zeppelin

情境导入数据可视化可以使数据信息更清晰形象的展示给数据分析人员，也为数据分析结果汇报呈现提供了有效途径。Zeppelin是Apache基金会下的一个开源框架，它提供了一个数据可视化的框架。具有数据提取、数据发掘、数据分析、数据可视化展示与合作等功能。

学习目标和要求1、会下载、安装、配置Zepplin可视化工具。2、会在Zepplin中配置Spark解释器。

下载与安装Zepplin可视化工具的安装包可以直接通过其官网下载。通过下载地址：/download.html，选择zeppelin-0.10.1-bin-all.tgz包进行下载。

下载与安装1、安装步骤（1）将Zepplin安装包上传到master节点的/root目录下。（2）解压并重命名目录。（3）修改配置文件zeppelin-env.sh。在文件最后添加以下配置内容：

下载与安装2、Zeppelin控制台启动Zeppelin后，通过浏览器访问30:9090可以打开Zeppelin控制台。

下载与安装3、Zeppelin中的Spark解释器配置目前，Zeppelin支持Scala、Python、Flink、SparkSQL、Hive、JDBC、Markdown、Shell等多种解释器。（1）anonymous用户按钮，打开解释器配置界面。（2）有哪些信誉好的足球投注网站spark解释器，进入spark解释器配置界面进行设置。

测试运行Zeppelin1、测试自带的BasicFeature(Spark)案例点击菜单栏中的Notebook按钮，找到并点击SparkBasicFeatures，本案例是对一份银行数据进行分析及可视化。

测试运行Zeppelin2、测试运行自编代码（1）Zeppelin控制台首页，点击“Createnewnote”按钮，创建一个新的notebook。（2）在弹出的窗口中填写新文件的路径和名称，选择解释器，此处选择默认的spark解释器即可。最后点击Create按钮，创建文件。（3）在新建的notebook界面执行以下代码。

女装电子商务评论情况数据可视化第二部分加载数据注册视图执行SQL数据可视化

情境导入在第五章中，我们利用SparkSQL在spark-shell中输入代码，对“女装电子商务评论情况”数据集进行了分析。但是通过此方法分析获得的结果都是二维数据表数据，数据特征不够直观生动，不利于总结分析汇报。因此，此女装线上商店负责人希望能对数据进行可视化，以帮助她们更好的进行决策。在Zeppelin的notebook中使用SQL解释器，可以将查询的结果以条状图、散点图、折线图等常见的方式进行可视化展示。

学习目标和要求1、掌握在Zepplin中使用SparkSQL注册视图2、能使用Zepplin执行SparkSQL命令实现数据可视化。

加载数据注册视图1、启动Hadoop集群、Spark集群和Zeppelin启动。在Zeppelin中创建一个新的notebook，并命名为“clothing_reviews”。2、读取HDFS文件系统中的CSV文件，自定义schema并转换为DataFrame。

加载数据注册视图3、对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗，删除重复的数据，对有空缺数据的行进行删除。

加载数据注册视图4、对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换，将recommended_IND（是否推荐）列中的1替换为推荐，0替换为不推荐。

加载数据注册视图5、使用createOrReplaceTempView()方法创建本地的临时视图clothing_reviews。

执行SQL数据可视化输入SparkSQL时，必须在第一行输入%sql。输入%sql的目的是告诉Zeppelin的解释器（Interpreter），后续输入的命令是SparkSQL。1、对前述创建好的“clothing_reviews”视图进行操作分析。首先了解本网上商店的客户年龄分布。查看40岁以下，不同年龄段的客户人数。

执行SQL数据可视化2、查看销量最高的服装分类。

执行SQL数据可视化3、统计不同rating评分的“推荐”和“不推荐”的recommended_IND数量情况。

执行SQL数据可视化修改数据透视表：在Zeppelin中，可以采用简单的拖放方式对数据进行聚合并生成数据透视表。并且可以创建包括求和、计数、平均、最小值、最大值等多个值的

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据分析及应用项目教程(Spark SQL)（微课版）课件第6章 Zepplin数据可视化.pptx