hive详解v.2.docx

下载文档 降价啦

12
0
约1.69万字
约 46页
2018-04-06 发布于贵州
举报
版权申诉
保障服务

hive详解v.2.docx

1、本文档共46页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hive详解v.2

课程大纲（HIVE增强）Hive增强HIVE基本概念HIVE架构及运行机制HQL-DDL基本语法HQL-DML基本语法HIVE的joinHIVE UDF函数HIVE shell基本操作HIVE 参数配置HIVE 自定义函数和TransformHIVE 执行HQL的实例分析HIVE最佳实践注意点HIVE优化策略HIVE实战案例1HIVE实战案例2HIVE实战案例3学习目标：1、熟练掌握hive的使用2、熟练掌握hql的编写3、理解hive的工作原理4、具备hive应用实战能力Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive 操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减少开发人员的学习成本。扩展功能很方便。Hive的特点可扩展 Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。延展性 Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。容错良好的容错性，节点出现问题SQL仍可完成执行。Hive架构架构图Jobtracker是hadoop1.x中的组件，它的功能相当于： Resourcemanager+AppMasterTaskTracker 相当于： Nodemanager + yarnchild基本组成用户接口：包括 CLI、JDBC/ODBC、WebGUI。元数据存储：通常是存储在关系数据库如 mysql,derby中。解释器、编译器、优化器、执行器。各组件的基本功能用户接口主要由三个：CLI、JDBC/ODBC和WebGUI。其中，CLI为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。元数据存储：Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。Hive与Hadoop的关系Hive利用HDFS存储数据，利用MapReduce查询数据Hive与传统数据库对比总结：hive具有sql数据库的外表，但应用场景完全不同，hive只适合用来做批量数据统计分析Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹table：在hdfs中表现所属db目录下一个文件夹external table：与table类似，不过其数据存放位置可以在任意指定路径partition：在hdfs中表现为table目录下的子目录bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件1.6 HIVE的安装部署1.6.1 安装单机版：元数据库mysql版：1.6.2 使用方式Hive交互shellbin/hiveHive thrift服务启动方式，（假如是在hadoop01上）：启动为前台：bin/hiveserver2启动为后台：nohup bin/hiveserver2 1/var/log/hiveserver.log 2/var/log/hiveserver.err 启动成功后，可以在别的节点上用beeline去连接方式（1）hive/bin/beeline 回车，进入beeline的命令界面输入命令连接hiveserver2beeline !connect jdbc:hive2//mini1:10000（hadoop01是hiveserver2所启动的那台主机名，端口默认是10000）方式（2）或者启动就连接：bin/beeline -u jdbc:hive2://mini1:10000 -n hadoop接下来就可以做正常sql查询了Hive命令[hadoop@hdp-node-02 ~]$ hive -e ‘sql’Hive基本操作DDL