- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 19
山西大学研究生项目设计报告
(2015 2016 学年 第 1 学期)
学院(中心、所): 计算机与信息技术学院
专
业
名
称: 软件工程(专硕)
课
程
名
称: 大数据处理
论
文
题
目:网站用户行为分析
授课 教师(职称): 杜亮
研 究 生 姓 名: 温杰 年 级: 2016 级
学 号: 201622405011
成 绩:
评 阅 日 期:
山西大学研究生学院
2016 年 12 月 20 日
大数据实例:网站用户行为分析
大数据实例:网站用户行为分析 2
一、案例简介 4
二、案例目的 4
三、软件工具 4
四、案例任务 4
五、实验步骤 5
、实验步骤一:实验环境准备 5
、linux 系统的安装 5
、Hadoop 的安装 6
、MySQL 的安装 6
、HBase 的安装 8
、Hive 的安装 8
、Sqoop 的安装 10
、Eclipse 安装 12
、实验步骤二:本地数据集上传到数据参考 Hive 12
、实验数据集的下载 12
、解压下载得到的数据集到指定目录 12
、数据集的预处理 13
、实验步骤三:Hive 数据分析 15
、实验步骤四:Hive、MySQL、HBase 数据互导 19
、Hive 预操作 19
、使用 Sqoop 将数据从 Hive 导入 MySQL 20
、使用 Sqoop 将数据从 MySQL 导入 HBase 21
、实验步骤五:利用 R 进行数据可视化分析 22
、R 安装 22
、可视化分析 MySQL 中的数据 23
一、案例简介
本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖 Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse 等系统和软件的安装和使用方法。
二、案例目的
1、熟悉 Linux 系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse 等系统和软件的安装和使用;
2、了解大数据处理的基本流程;
3、熟悉数据预处理方法;
4、熟悉在不同类型数据库之间进行数据相互导入导出;
5、熟悉使用 R 语言进行可视化分析;
6、熟悉使用 Elipse 编写 Java 程序操作 HBase 数据库。
三、软件工具
四、案例任务
图 1、软件总体概览图
1、安装 Linux 操作系统
2、安装关系型数据库 MySQL
3、安装大数据处理框架 Hadoop
4、安装列族数据库 HBase
5、安装数据仓库 Hive
6、安装 Sqoop
7、安装 R
8、安装 Eclipse
9、对文本文件形式的原始数据集进行预处理
10、把文本文件的数据集导入到数据仓库 Hive 中
11、对数据仓库 Hive 中的数据进行查询分析 12、使用 Sqoop 将数据从 Hive 导入 MySQL 13、使用 Sqoop 将数据从 MySQL 导入 HBase 14、使用 R 对 MySQL 中的数据进行可视化分析
图 2、案例所涉及操作总体概览图
五、实验步骤
、实验步骤一:实验环境准备
、linux 系统的安装
该部分内容略去。
、Hadoop 的安装
该部分内容详见另一篇参考文档:《 Ubuntu 伪分布式安装 Hadoop 详细步骤》.
、MySQL 的安装
⒈使用如下命令进行安装 MySQL:
2.启动 MySQL 服务器:
3.确认是否成功:
4.进入 MySQL Shell 界面:
5.解决利用 Sqoop 导入 MySQL 中文乱码的问题
导致导入时中文乱码的原因是 character_set_server 默认设置为 latin1,可以单个设置修改编码方式 set character_set_server=utf8;但是重启后会失效,建议使用以下方式修改编码方式。如下图:
重启 MySQL 服务:service mysql restart;登录 MySQL 后查看 MySQL 设置的编码。如下图所示:
、HBase 的安装
该部分内容略去。
、Hive 的安装
1.下载并解压 Hive 源程序: Hive 下载链接
2.使用如下命令进入到解压到的目录,重命名解压目录为 Hive-1.2.1,修改Hive-1.2.1 目录所有者为 wenjie.
cd /usr/local/
sudo mv apache-hive-1.2.1-bin Hive-1.2.1 sudo chown wenjie Hive-1.2.1 –R
3.配置环境变量
为了方便使用,我们把 hive
文档评论(0)