Hive编程技术与应用第9章.pptxVIP

下载本文档

0
0
约5.52千字
约 16页
2025-01-05 发布于陕西
举报
版权申诉

Hive编程技术与应用第9章.pptx

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

智慧交通概述Hive编程技术与应用

目录9.1项目应用场景9.2设计与实现9.3本章小结

第9章Hive综合案例（二）Hive是用于存储和处理海量结构化数据的一个基于Hadoop的开源数据仓库。它把海量数据存储于Hadoop文件系统，而不是数据库。但它提供了一套类数据库的数据存储和处理机制，并采用HiveQL（类SQL）语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表，而实际上这些数据是分布式地存储在HDFS中的。Hive经过对语句进行解析和转换，最终生成一系列基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。

第9章Hive综合案例（二）9.1项目应用场景本项目案例的任务是对Hadoop日志数据进行统计分析。数据日志量并不大，这些日志分布在前端机，按每次操作保存。我们将这些数据按需求直接基于Hadoop开发。需要自行管理数据，针对多个统计需求开发不同的MapReduce运算任务，对合并、排序等多项操作进行定制，并检测任务运行状态，工作量并不小。但使用Hive，从导入到分析、排序、去重、结果输出，这些操作都可以运用HiveQL语句来解决。一条语句经过处理被解析成几个任务来运行，即使是关键词访问量增量这种需要同时访问多天数据的较为复杂的需求也能通过表关联这样的语句自动完成，大大提高了工作效率。

第9章Hive综合案例（二）9.2设计与实现9.2.1日志格式分析首先分析Hadoop的日志格式，日志是一行一条。日志格式可以依次描述为：日期、时间、级别、相关类和提示信息等，见表9-1。表9-1Hadoop日志格式日志信息数据放入文件hadoop_log.data中。

第9章Hive综合案例（二）9.2.2建立表可以采用空格来对行内的内容进行分割，但是提示信息中可能也有空格，可以把提示信息组织成多个列存放，最后查询的时候把这几列进行合并即可。这里提示信息用三列组织。另外时间分两部分，可以用复杂类型ARRAY来组织，以逗号分割。表的定义如下：//建立Hive表，用来存储日志信息HiveUtil.createTable(createtableifnotexistsloginfo(rdateString,timeARRAYstring,typeSTRING,relateclassSTRING,information1STRING,information2STRING,information3STRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBYCOLLECTIONITEMSTERMINATEDBY,

第9章Hive综合案例（二）MAPKEYSTERMINATEDBY:);9.2.3程序设计本项目的程序在计算机机上用Eclipse开发。该程序连接Hadoop集群，处理完的结果存储在MySQL服务器上。图9-1是程序开发示例图。图9-1程序开发示例图

第9章Hive综合案例（二）MySQL数据库的创建存储信息表hadooplog的SQL语句如下所示：#pwd/soft/data#vimhadooplog.sqldroptableifexistshadooplog;createtablehadooplog(idint(11)notnullauto_increment,rdatevarchar(50)null,timevarchar(50)defaultnull,typevarchar(50)defaultnull,relateclasstinytextdefaultnull,informationlongtextdefaultnull,primarykey(id))engine=innodbdefaultcharset=utf8;MySQL中表的建立：（1）登录MySQL数据库hadoop@ubuntu:~$mysql-uhive-phive;

第9章Hive综合案例（二）（2）创建数据库hadooplogsmysqlcreatedatabasehadooplogs;（3）导入SQL语句创建表hadooplogmysqlusehadooplogs;mysqlsource/soft/data/hadooplog.sql;mysqldeschadooplog;hadooplog表结构如图9-2所示。图9-2hadooplog表结构

第9章Hive综合案例（二）9.2.4编码