大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用.docx

大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

实训9Zepplin安装部署与使用

一、实训目的与要求

1、会下载、安装、配置Zepplin可视化工具。

2、会在Zepplin中配置Spark解释器。

3、掌握在Zepplin中使用SparkSQL注册视图

4、能使用Zepplin执行SparkSQL命令实现数据可视化。

二、操作训练

1、Zepplin安装部署

(1)将Zepplin安装包上传到master节点的/root目录下。

操作结果截图+签名

(2)解压并重命名目录。

操作结果截图+签名

(3)修改配置文件zeppelin-env.sh。

操作结果截图+签名

(4)启动Zeppelin

操作结果截图+签名

(5)Zeppelin中的Spark解释器配置

操作结果截图+签名

(6)测试自带的BasicFeature(Spark)案例

操作结果截图+签名

(7)测试运行自编代码

操作结果截图+签名

2、女装电子商务评论情况数据可视化

(1)在Zeppelin中创建一个新的notebook,并命名为“clothing_reviews”。

操作结果截图+签名

(2)读取HDFS文件系统中的女装电子商务评论情况数据CSV文件,自定义schema并转换为DataFrame。

操作结果截图+签名

(3)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。

操作结果截图+签名

(4)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。

操作结果截图+签名

(5)使用createOrReplaceTempView()方法创建本地的临时视图clothing_reviews。

操作结果截图+签名

(6)对前述创建好的“clothing_reviews”视图进行操作分析。首先了解本网上商店的客户年龄分布。查看40岁以下,不同年龄段的客户人数。

操作结果截图+签名

(7)查看销量最高的服装分类。

操作结果截图+签名

(8)统计不同rating评分的“推荐”和“不推荐”的recommended_IND数量情况。

操作结果截图+签名

(9)修改前一题的数据透视表,将recommended_IND拖动到keys框,将rating拖动到groups框中,以另一种聚合形态展示。

操作结果截图+签名

(10)查询了解不推荐的这些订单,分别属于哪些服装分类,各种服装类的不推荐数量情况如何。

操作结果截图+签名

(11)现在,商店负责人想知道本商店五星好评最多的服装类别是什么,评分最低的服装类型是什么。对于此问题,只需要统计分析不同评分等级的服装编号clothing_id情况。

操作结果截图+签名

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档