网站大量收购独家精品文档,联系QQ:2885784924

Hive - 运用于hadoop拍字节范围数据仓库.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hive - 运用于 hadoop 的拍字节范围数据仓库 Hive - 运用于 hadoop 的拍字节范围数据仓库 HHiivvee -- 运运用用于于hhaaddoooopp的的拍拍字字节节范范围围数数据据仓仓库库 分类: Hadoop2011-05-17 20:44 167人阅读 评论(0) 收藏 举报 【原文】 Hive –A Petabyte Scale Data Warehouse Using Hadoop 【作者】 Facebook 数据架构组 : Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu and Raghotham Murthy 【摘要】 应用于工业的商务智能收集分析所需的数据集正在大量增长,使得传统的数据仓 Hadoop Hadoop 库解决方案变得过于昂贵。HHaaddoooopp 是一个流行 的开源map-reduce 实现,用于像yahoo, Facebook 一类的公司。来存储和处理商用硬件上的大范围数据集。然而 map-reduce 程序 模型还是处于很低级别,即需要开发者来书写客户程序, 这些程序往往难于维护与重用。 在这篇文论中,我们提出了Hive, 一个开源的数据仓库解决方案,建基于hadoop。Hive 支 持的查询是类似SQL 方式的陈述语言:HiveQL 。这种查询被编译进mapreduce 的job 用 以hadoop 的执行。而且HiveQL 允许用户在查询中添加“客户map-reduce 脚本插件”。这 种语言包含了一个“支持包含原语类型的表的”类型系统 (a type system with support for tables containing primitive types),像数组与图这些Collection 以及类似的嵌套组合数据结 构。其背后的IO 库可扩展以查询客户格式的数据。Hive 还包含了一个系统编目 — 元存 储 Metastore —包含了“有利于数据挖掘、查询优化与查询编译的”概要模式与统计 (schemas and statistics)。在Facebook,,Hive 数据仓库包含了数万张表,共存储超过 700TB 的数据。广泛的用于每个月超过200个用户的报告以及ad-hoc 分析。 ad-hoc ad-hoc (译注)aadd--hhoocc 分析是商务智能中伴随着OLAP 以及数据仓库,数据挖掘等工具的一个子 主题,无需SQL以及数据模式的深度知识。通过基于用户友好GUI 的系统进行无需操作, 允许用户自己生成客户化查询。 I. I. II..介绍 大数据集上的可伸缩分析(Scalable analysis)是 Facebook 中数个团队,包含了工程师 和非工程师,的核心功能。除开公司内分析师使用的 ad hoc 分析以及商务智能应用, Facebook 的一系列产品也基于逻辑解析(analytics)。这些产品的范围从简单的如 对 Facebook Facebook Facebook 的 Ad 网络的内部省察 报告应用,到更加高级的例如 FFaacceebbooookk 词典产 品 。作为适合那些“千差万别的应用与用户需要的,以及适应成本有效方式应对 facebook 上不断增长的数据的”灵活基础架构的结果,这是有决定性的。Hive 以及 Hadoop 是我们 在 Facebook 用于匹配这些需求的技术。 Facebook 在 2008 年前的整个数据处理基础架构是建立于“使用商用关系数据库 RDBMS 之上的”数据仓库。我们产出的数据增长速度非常快 - 作为一个例子数据从 15TB 增长到 2007 年的 700TB 。那个时候的基础架构是如此的不能满足需求以至于日 常的数据分析 job 要花掉至少一天,而且情况是一天天的坏下去。我们有迫切的新基础架 构需求以适合数据的增长。作为结构我们开始使用 Hadoop 作为技术手段来应

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档