网站大量收购闲置独家精品文档,联系QQ:2885784924

Hadoop大数据原理与应用第11章华为P30手机评论画像分析(2020春).pptx

Hadoop大数据原理与应用第11章华为P30手机评论画像分析(2020春).pptx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第11章华为P30手机评论画像分析《Hadoop大数据原理与应用》西安电子科技大学出版社【知识与能力要求】第11章 华为P30手机评论画像分析11.1 需求分析11.2 项目设计11.3 项目环境搭建11.4 数据采集与预处理11.5 使用Hive分析数据11.6 数据可视化11.1 需求分析用户画像即用户信息标签化,是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息数据后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。针对京东商城华为P30手机前100页的评论数据,进行用户画像分析,并对结论进行可视化呈现,最终得出评论时间在工作日、周末的分布情况,以及评论时间在春夏秋冬四季的分布情况。11.2 项目设计对华为P30手机评论数据的用户画像分析。项目使用专业工具进行数据采集,使用Excel和Kettle进行数据预处理,采用HDFS存储预处理后的手机评论数据,并导入Hive数据仓库进行数据分析,最后使用Sprint Boot和ECharts技术将结论可视化呈现。11.3 项目环境搭建项目在Linux环境下完成,假设有3台机器,在3台机器上分别完成以下内容:(1)搭建Linux集群,配置静态IP、修改主机名、编辑域名映射。(2)安装和配置Java。(3)安装和配置SSH免密登录。(4)部署全分布模式Hadoop集群。(5)在Hadoop主节点上安装MySQL数据库,设置Hive连接的账号和密码。(6)部署Hive,采用MySQL作为Metastore的数据库。(7)在Hadoop主节点上安装Eclipse。(8)在Windows或Linux下安装Excel、ETL工具Kettle。11.4 数据采集与预处理11.4.1 去除无关数据列使用Excel去除多余无关数据列,得到的手机评论数据。11.4.2 数据变换用户评论时间修改为数字类型,目的是方便利用Hive中的函数做时间运算。1. 使用Kettle新建转换打开Kettle的Spoon图形界面工具,设计一个转换(Transfor-mation ), 选择“CSV文件输入”、“字段选择”、“JavaScript代码”和“Excel输出”4个组件,在每个组件上单击后,按住“Shift”按键拉出一根线到下一个组件,使各个组件数据连通。使用Spoon设计转换11.4.2 数据变换2. 设计“CSV文件输入”进入窗口【CSV文件输入】,执行如下操作:(1)为防止数据出现乱码,将文件编码设置为UTF-8。(2)首先单击按钮获取字段,会获取文件头部的列名,然后单击按钮预览,进行查看数据11.4.2 数据变换3. 设计“字段选择”进入窗口【选择/改名值】。将字段“时间”改为英文字符如“time”,修改字段名称主要是因为JavaScript中汉字不能作为参数进行处理。11.4.2 数据变换4. 编写JavaScript代码进入窗口【JavaScript代码】。在选项卡【Script 1】中,写入以下两行代码:var data1 = time;var time1 = time.getTime()/1000; 其中,time.getTime()是将“yyyy-MM-dd HH:mm”的格式转化成数字类型并精确到毫秒,然后将得到的毫秒数值除以1000得到秒。11.4.2 数据变换5. 设计“Excel输出”进入窗口【Excel输出】,执行如下操作:(1)在选项卡【文件】中设置Excel文件的输出位置。11.4.2 数据变换5. 设计“Excel输出”(2)在选项卡【字段】中,单击按钮获取字段,删除不需要的字段,编者只保留了两个字段:原始数据格式的字段和处理后的字段,目的是方便对比。11.4.3 数据集成与清洗数据集成与清洗的操作步骤如下:(1)用Excel打开文件jd.csv,将文件中字段“时间”的值替换为上文产生的数字格式时间“time1”的值。(2)删除无关字段。(3)手工添加ID,在第一列插入递增数字,作为每一行数据的唯一标识。(4)将此文件另存为“jd_1.csv”,另存文件时将其编码设置为UTF-8。如果不采用字符编码UTF-8,数据上传至HDFS后查看时会出现乱码现象。(5)使用记事本打开文件“jd_1.csv”,我们会发现文件内容中存在“. ”形式的数据(6)使用文本文件自带的“替换”功能将“. ”替换为“.”。jd_1.csv文件中数据之间的分隔符是Tab,如果不将多余的Tab删除,读取文件时会出现错误,造成数据不准确。最后将该文件重新重命名为jd.csv。11.5 使用Hive分析数据11.5.1 上传评论数据至HDFS将文件jd.csv上传至HDFS的目录/data/jd下,按照以下步骤完成。(1)创建H

文档评论(0)

水风波 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档