第7讲:hive数据仓库第讲:hive数据仓库第7讲:hive数据仓库第7讲:hive数据仓库.ppt

第7讲:hive数据仓库第讲:hive数据仓库第7讲:hive数据仓库第7讲:hive数据仓库.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7讲:hive数据仓库第讲:hive数据仓库第7讲:hive数据仓库第7讲:hive数据仓库

数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 数据分析者期待的解决方案 完美解决性能瓶颈,在可见未来不容易出现新瓶颈 过去所拥有的技能可以平稳过渡。比如SQL、R 转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,维护成本 Hive简介 ?起源自facebook由Jeff Hammerbacher领导的团队 ?构建在Hadoop上的数据仓库框架 ?设计目的是让SQL技能良好,但Java技能较弱的分析师可 以查询海量数据 ?2008年facebook把hive项目贡献给Apache Hive 数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表 支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其它特征都能支持 可以看成是从SQL到Map-Reduce的映射器 提供shell、JDBC/ODBC、Thrift、Web等接口 Hive不适合用于联机事务处理,也不提供实时查询功能。最适合应用在基于大量不可变数据的批处理作业。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的mapper 和 reducer 无法完成的复杂的分析工作。 Hive现状 Hadoop生态圈中的重要项目 ?企业级数据仓库的主流架构之一 ?解决“即席查询”的问题 ?注意Cloudera的Impala项目,号称比Hive要快3-30倍 ?兼容SQL是目前大数据产品的风向标 体系结构图 1、用户接口主要有三个:命令行(CLI),客户端(Client) 和WEB界面( WUI)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 服务。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。 2、元数据存储。Hive 将元数据存储在数据库中,如 mysql、derby嵌入式数据库。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 3、执行。解释器、编译器、优化器完成 HiveQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。 4、 HDFS 存储。Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。Hive 元数据存储Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库: Single User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。 Hive安装 内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接 本地独立模式:在本地安装Mysql,把元数据放到Mysql内 远程模式:元数据放置在远程的Mysql数据库 内嵌模式安装 下载并解压Hive 设置环境变量 (修改profile文件) 配置文件 hive-env.sh cp hive-env.sh.template hive-env.sh hive-site.xml cp hive-default.xml.template hive-site.xml 启动hive 简单建删表测试 一个常见错误 解决方法 修改hadoop-env.sh Hive安装:独立模式 可参考网络资源: /xqj198404/article/details/9109715 /xqj198404/article/details Hive的服务 Hive不仅仅是一个shell,通过配置,还可以提供Thrift服务器、Web接口、元数据和JDBC/ODBC服务,具有强大的功能和良好的可扩

您可能关注的文档

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档