- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
实训7电商大数据分析与探索
一、实训目的与要求
1、掌握从不同数据源创建DataFrames的方法。
2、掌握操作DataFrame进行数据清洗的基本方法。
3、掌握操作DataFrame进行数据转换的基本方法。
4、掌握使用SparkSQL语句进行数据分析的方法。
5、掌握持久存储数据的方法。
6、灵活使用DataFrame数据操作的各种方法进行数据查询。
7、会使用聚合、连接等操作对DataFrame数据进行转换。
8、能使用聚合函数对DataFrame数据进行分析。
二、操作训练
1、女装电子商务评论情况分析
现有某女装线上商店的一份围绕客户评论的女装电子商务数据集Clothing-Reviews.csv。数据集字段如表1所示。现在商家希望能帮助他们对此份数据进行分析,获得一些建设性意见,帮助商店更好的发展。
表1女装电子商务评论数据集字段含义
字段
含义
order_id
订单编号
clothing_id
服装编号
age
年龄
review_text
评论
rating
评级
recommended_IND
是否推荐
positive_feedback_count
积极反馈计数
class_name
服装分类
(1)读取“女装电子商务评论”数据集,加载数据集到RDD,接着利用自定义schema的方式将RDD转换为DataFrame。
操作结果截图+签名
(2)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。
操作结果截图+签名
(3)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。
操作结果截图+签名
(4)使用createOrReplaceTempView()方法对女装电子商务评论DataFrame数据创建本地的临时视图clothing_reviews。
操作结果截图+签名
(5)查看40岁以下,不同年龄段的客户人数。
操作结果截图+签名
(6)统计recommended_IND为“不推荐”的订单的rating评分分布。
操作结果截图+签名
(7)查看评分小于等于3且为“不推荐”的订单的具体评论。
操作结果截图+签名
(8)查看不同服装分类的不推荐数量。
操作结果截图+签名
(9)获得不同服装编号clothing_id的五星好评数量,并且降序排序。
操作结果截图+签名
(10)分析“rating”评分字段和“positive_feedback_count”积极反馈数量字段之间的相关性。
操作结果截图+签名
(11)找到服装分类出现概率大于40%的类别,即支持级别为0.4。
操作结果截图+签名
(12)对age列计算近似分位数,指定的分位数概率为0.25、0.5和0.75(注意:0是最小值,1是最大值,0.5是中值median)。
操作结果截图+签名
(13)探索年龄age和评分rating等级间是否有相关性。
操作结果截图+签名
(14)利用save()函数保存数据。
操作结果截图+签名
(15)通过df.rdd.saveAsTextFile(file:///)转化成rdd,将数据保存输出到HDFS文件系统的/Chapter5目录下,并命名为reviews_two.txt
操作结果截图+签名
2、在线销售订单数据分析
现有两份在线销售数据集orders.csv和order-details.csv,是关于不同地区、多种商品和电子产品等的销售情况。数据字段及说明如下表所示。
表2orders.csv订单信息数据集字段说明
字段
含义
order_id
订单编号
order_date
订单日期
cust_id
客户编号
full_name
客户名字
city
城市
表3order-details.csv订单详细信息数据集字段说明
字段
含义
order_id
订单编号
sku
商品的编码
qty_ordered
已订购数量
price
商品价格
category
类别
discount_percent
折扣百分比
现在希望通过数据分析了解以下情况:
(1)此数据集中每个客户的下单数量是多少?
操作结果截图+签名
(2)每个城市的订单有多少?
操作结果截图+签名
(3)每个客户的消费总额是多少?
操作结果截图+签名
(4)客户的平均订单消费额是多少?
操作结果截图+签名
您可能关注的文档
- 大数据分析及应用项目教程(Spark SQL)(微课版) 课程教学大纲 、授课计划.doc
- 大数据分析及应用项目教程(Spark SQL)(微课版) 课程教学大纲 .doc
- 大数据分析及应用项目教程(Spark SQL)(微课版) 授课计划 .doc
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训1 Hadoop集群环境搭建.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训2 Spark集群部署与使用.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训3 Scala基础(一).docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训4 Scala基础(二).docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训6 售房网站的销售房屋情况.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训8 某化妆品在线商店的客户行为数据分析.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用.docx
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)