网站大量收购独家精品文档,联系QQ:2885784924

Hadoop概述.PDFVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop概述

第 1章 本章内容提要 ● Hadoop 的组件 ● HDFS 、MapReduce 、YARN 、ZooKeeper 和Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企 业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的 需求。当涉及数据时,企业中最大的需求便是可扩展能力。科技和 商业促使各种组织收集越来越多的数据,而这也增加了高效管理这 些数据的需求。本章探讨Hadoop Stack ,以及所有可与Hadoop 一 起使用的相关组件。 在构建Hadoop Stack 的过程中,每个组件都在平台中扮演着重 要角色。软件栈始于Hadoop Common 中所包含的基础组件。Hadoop Hadoop 大数据解决方案 Common 是常见工具和库的集合,用于支持其他 Hadoop 模块。和 其他软件栈一样,这些支持文件是一款成功实现的必要条件。而众 所周知的文件系统,Hadoop 分布式文件系统,或者说HDFS ,则是 Hadoop 的核心,然而它并不会威胁到你的预算。如果要分析一组数 据,你可以使用MapReduce 中包含的编程逻辑,它提供了在Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式 操作系统。 ZooKeeper 是另一个Hadoop Stack 组件,它能通过共享层次名 称空间的数据寄存器(称为znode) ,使得分布式进程相互协调工作。 每个znode 都由一个路径来标识,路径元素由斜杠(/)分隔。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与Oracle、MySQL 和SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 1.1 商业分析与大数据 商业分析通过统计和业务分析对数据进行研究。Hadoop 允许你 在其数据存储中进行业务分析。这些结果使得组织和公司能够做出 有利于自身的更好商业决策。 为加深理解,让我们勾勒一下大数据的概况。鉴于所涉及数据 的规模,它们会分布于大量存储和计算节点上,而这得益于使用 Hadoop 。由于Hadoop 是分布式的(而非集中式的) ,因而不具备关系 型数据库管理系统(RDBMS) 的特点。这使得你能够使用Hadoop 所 提供的大型数据存储和多种数据类型。 2 第1 章 Hadoop 概述 例如,让我们考虑类似Google、Bing 或者Twitter 这样的大型 数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似Google 这样的商业公司可使用Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 并不旨在处理或分析超大规模数据集,但 Hadoop 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 是Hadoop 的基础,因为它包含主要服务和基 本进程,例如对底层操作系统及其文件系统的抽象。Hadoop Common 还包含必要的Java 归档(Java Archive,JAR)文件和用于启 动Hadoop 的脚本。Hadoop Common 包甚至提供了源代码和文档, 以及贡献者的相关内容。如果没有 Hadoop Common ,你无法运行 Hadoop 。 与任何软件栈一样,Apache 对于配置Hadoop Common 有一定 要求。大体了解Linux 或Unix 管理员所需的

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档