Hadoop大数据原理与应用第11章华为P30手机评论画像分析(2020春).pptx

下载文档

108
0
约1.05万字
约 51页
2020-08-23 发布于陕西
举报
版权申诉
保障服务

Hadoop大数据原理与应用第11章华为P30手机评论画像分析(2020春).pptx

1、本文档共51页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第11章华为P30手机评论画像分析《Hadoop大数据原理与应用》西安电子科技大学出版社【知识与能力要求】第11章华为P30手机评论画像分析11.1 需求分析11.2 项目设计11.3 项目环境搭建11.4 数据采集与预处理11.5 使用Hive分析数据11.6 数据可视化11.1 需求分析用户画像即用户信息标签化，是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息数据后，完美地抽象出一个用户的商业全貌，可以看作是企业应用大数据技术的基本方式。针对京东商城华为P30手机前100页的评论数据，进行用户画像分析，并对结论进行可视化呈现，最终得出评论时间在工作日、周末的分布情况，以及评论时间在春夏秋冬四季的分布情况。11.2 项目设计对华为P30手机评论数据的用户画像分析。项目使用专业工具进行数据采集，使用Excel和Kettle进行数据预处理，采用HDFS存储预处理后的手机评论数据，并导入Hive数据仓库进行数据分析，最后使用Sprint Boot和ECharts技术将结论可视化呈现。11.3 项目环境搭建项目在Linux环境下完成，假设有3台机器，在3台机器上分别完成以下内容：（1）搭建Linux集群，配置静态IP、修改主机名、编辑域名映射。（2）安装和配置Java。（3）安装和配置SSH免密登录。（4）部署全分布模式Hadoop集群。（5）在Hadoop主节点上安装MySQL数据库，设置Hive连接的账号和密码。（6）部署Hive，采用MySQL作为Metastore的数据库。（7）在Hadoop主节点上安装Eclipse。（8）在Windows或Linux下安装Excel、ETL工具Kettle。11.4 数据采集与预处理11.4.1 去除无关数据列使用Excel去除多余无关数据列，得到的手机评论数据。11.4.2 数据变换用户评论时间修改为数字类型，目的是方便利用Hive中的函数做时间运算。1. 使用Kettle新建转换打开Kettle的Spoon图形界面工具，设计一个转换（Transfor-mation ），选择“CSV文件输入”、“字段选择”、“JavaScript代码”和“Excel输出”4个组件，在每个组件上单击后，按住“Shift”按键拉出一根线到下一个组件，使各个组件数据连通。使用Spoon设计转换11.4.2 数据变换2. 设计“CSV文件输入”进入窗口【CSV文件输入】，执行如下操作：（1）为防止数据出现乱码，将文件编码设置为UTF-8。（2）首先单击按钮获取字段，会获取文件头部的列名，然后单击按钮预览，进行查看数据11.4.2 数据变换3. 设计“字段选择”进入窗口【选择/改名值】。将字段“时间”改为英文字符如“time”，修改字段名称主要是因为JavaScript中汉字不能作为参数进行处理。11.4.2 数据变换4. 编写JavaScript代码进入窗口【JavaScript代码】。在选项卡【Script 1】中，写入以下两行代码：var data1 = time;var time1 = time.getTime()/1000; 其中，time.getTime()是将“yyyy-MM-dd HH:mm”的格式转化成数字类型并精确到毫秒，然后将得到的毫秒数值除以1000得到秒。11.4.2 数据变换5. 设计“Excel输出”进入窗口【Excel输出】，执行如下操作：（1）在选项卡【文件】中设置Excel文件的输出位置。11.4.2 数据变换5. 设计“Excel输出”（2）在选项卡【字段】中，单击按钮获取字段，删除不需要的字段，编者只保留了两个字段：原始数据格式的字段和处理后的字段，目的是方便对比。11.4.3 数据集成与清洗数据集成与清洗的操作步骤如下：（1）用Excel打开文件jd.csv，将文件中字段“时间”的值替换为上文产生的数字格式时间“time1”的值。（2）删除无关字段。（3）手工添加ID，在第一列插入递增数字，作为每一行数据的唯一标识。（4）将此文件另存为“jd_1.csv”，另存文件时将其编码设置为UTF-8。如果不采用字符编码UTF-8，数据上传至HDFS后查看时会出现乱码现象。（5）使用记事本打开文件“jd_1.csv”，我们会发现文件内容中存在“. ”形式的数据（6）使用文本文件自带的“替换”功能将“. ”替换为“.”。jd_1.csv文件中数据之间的分隔符是Tab，如果不将多余的Tab删除，读取文件时会出现错误，造成数据不准确。最后将该文件重新重命名为jd.csv。11.5 使用Hive分析数据11.5.1 上传评论数据至HDFS将文件jd.csv上传至HDFS的目录/data/jd下，按照以下步骤完成。（1）创建H