- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7讲:hive数据仓库第讲:hive数据仓库第7讲:hive数据仓库第7讲:hive数据仓库
数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 数据分析者期待的解决方案 完美解决性能瓶颈,在可见未来不容易出现新瓶颈 过去所拥有的技能可以平稳过渡。比如SQL、R 转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,维护成本 Hive简介 ?起源自facebook由Jeff Hammerbacher领导的团队 ?构建在Hadoop上的数据仓库框架 ?设计目的是让SQL技能良好,但Java技能较弱的分析师可 以查询海量数据 ?2008年facebook把hive项目贡献给Apache Hive 数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表 支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其它特征都能支持 可以看成是从SQL到Map-Reduce的映射器 提供shell、JDBC/ODBC、Thrift、Web等接口 Hive不适合用于联机事务处理,也不提供实时查询功能。最适合应用在基于大量不可变数据的批处理作业。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的mapper 和 reducer 无法完成的复杂的分析工作。 Hive现状 Hadoop生态圈中的重要项目 ?企业级数据仓库的主流架构之一 ?解决“即席查询”的问题 ?注意Cloudera的Impala项目,号称比Hive要快3-30倍 ?兼容SQL是目前大数据产品的风向标 体系结构图 1、用户接口主要有三个:命令行(CLI),客户端(Client) 和WEB界面( WUI)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 服务。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。 2、元数据存储。Hive 将元数据存储在数据库中,如 mysql、derby嵌入式数据库。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 3、执行。解释器、编译器、优化器完成 HiveQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。 4、 HDFS 存储。Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。Hive 元数据存储Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库: Single User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。 Hive安装 内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接 本地独立模式:在本地安装Mysql,把元数据放到Mysql内 远程模式:元数据放置在远程的Mysql数据库 内嵌模式安装 下载并解压Hive 设置环境变量 (修改profile文件) 配置文件 hive-env.sh cp hive-env.sh.template hive-env.sh hive-site.xml cp hive-default.xml.template hive-site.xml 启动hive 简单建删表测试 一个常见错误 解决方法 修改hadoop-env.sh Hive安装:独立模式 可参考网络资源: /xqj198404/article/details/9109715 /xqj198404/article/details Hive的服务 Hive不仅仅是一个shell,通过配置,还可以提供Thrift服务器、Web接口、元数据和JDBC/ODBC服务,具有强大的功能和良好的可扩
您可能关注的文档
- 第5章 关系数据理论第5章关系数据理论第5章 关系数据理论第5章 关系数据理论.ppt
- 第5章 高维列联表第5章 维列联表第5章 高维列联表第5章 高维列联表.ppt
- 第5章 商业计划第5章 商计划业计划.ppt
- 第5章 时序逻辑电路第5章时序逻辑电路第5章 时序逻辑电路第5章 时序逻辑电路.ppt
- 第5章 同步时序逻辑电路第章 同步时序逻辑电路第5章 同步时序逻辑电路第5章 同步时序逻辑电路.ppt
- 第5章 图像复原第5章 图复原像复原.ppt
- 第5章 网络消费者行为第5 网络消费者行为第5章 网络消费者行为第5章 网络消费者行为.ppt
- 第5章 信源编码标准ne第5章 信源编码标准new第5章 信源编码标准new第5章 信源编码标准new.ppt
- 第5章 数字电路基础第5章数字电路基础第5章 数字电路基础第5章 数字电路基础.ppt
- 第5章 时域测量第5章 时测量域测量.ppt
- 《GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业》.pdf
- GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业.pdf
- GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 中国国家标准 GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 《GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法》.pdf
- 《GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数》.pdf
- GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数.pdf
- 《GB/T 17215.686-2024电测量数据交换 DLMS/COSEM组件 第86部分:社区网络高速PLCISO/IEC 12139-1配置》.pdf
- GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜.pdf
- 《GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜》.pdf
文档评论(0)