- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hive详解v.2
课程大纲(HIVE增强)Hive增强HIVE基本概念HIVE架构及运行机制HQL-DDL基本语法HQL-DML基本语法HIVE的joinHIVE UDF函数HIVE shell基本操作HIVE 参数配置HIVE 自定义函数和TransformHIVE 执行HQL的实例分析HIVE最佳实践注意点HIVE优化策略HIVE实战案例1HIVE实战案例2HIVE实战案例3学习目标:1、熟练掌握hive的使用2、熟练掌握hql的编写3、理解hive的工作原理4、具备hive应用实战能力Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。 扩展功能很方便。Hive的特点可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。容错 良好的容错性,节点出现问题SQL仍可完成执行。Hive架构架构图Jobtracker是hadoop1.x中的组件,它的功能相当于: Resourcemanager+AppMasterTaskTracker 相当于: Nodemanager + yarnchild基本组成用户接口:包括 CLI、JDBC/ODBC、WebGUI。元数据存储:通常是存储在关系数据库如 mysql,derby中。解释器、编译器、优化器、执行器。各组件的基本功能用户接口主要由三个:CLI、JDBC/ODBC和WebGUI。其中,CLI为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。元数据存储:Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。Hive与Hadoop的关系Hive利用HDFS存储数据,利用MapReduce查询数据Hive与传统数据库对比总结:hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。db:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹table:在hdfs中表现所属db目录下一个文件夹external table:与table类似,不过其数据存放位置可以在任意指定路径partition:在hdfs中表现为table目录下的子目录bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件1.6 HIVE的安装部署1.6.1 安装单机版:元数据库mysql版:1.6.2 使用方式Hive交互shellbin/hiveHive thrift服务启动方式,(假如是在hadoop01上):启动为前台:bin/hiveserver2启动为后台:nohup bin/hiveserver2 1/var/log/hiveserver.log 2/var/log/hiveserver.err 启动成功后,可以在别的节点上用beeline去连接方式(1)hive/bin/beeline 回车,进入beeline的命令界面输入命令连接hiveserver2beeline !connect jdbc:hive2//mini1:10000(hadoop01是hiveserver2所启动的那台主机名,端口默认是10000)方式(2)或者启动就连接:bin/beeline -u jdbc:hive2://mini1:10000 -n hadoop接下来就可以做正常sql查询了Hive命令[hadoop@hdp-node-02 ~]$ hive -e ‘sql’Hive基本操作DDL
您可能关注的文档
- 2019高三一轮复习创新设计文科数学第四章第4节.doc
- 2019高三一轮复习创新设计文科数学第二章第8节.doc
- 4148运输顺槽作业规程.docx
- 7001进风掘进套修.doc
- 10602采煤工作面作业规程.docx
- 2018自驾桂林阳朔策划.docx
- 20182月中医防治糖尿病讲座.doc
- 20183月2日物理周测试题.docx
- 100110外切眼施工措施.docx
- 20183月高二月考.docx
- DB36T 961-2024平卧菊三七栽培技术规程.docx
- 建筑信息模型(BIM)中的建筑产品与服务环境声明(EPD)数据模板 编制说明.docx
- DB36T 2071-2024大件运输车辆通行公路桥梁安全评估规程.pdf
- DB 1401T 29—20242 型糖尿病患者健康管理服务规范.docx
- 建筑信息模型(BIM)中的建筑产品与服务环境声明(EPD)数据模板 编制说明.pdf
- DB1310T 355-2024地热单孔循环取热系统技术规程.pdf
- DB36T 2070-2024疼痛综合评估规范.docx
- DB36T 550-2024杏香兔耳风种植技术规程.docx
- DB36T 2077-2024新型公共阅读空间建设指南.docx
- DB1305T 112-2024宠物配合饲料质量安全管理规范.docx
文档评论(0)