Hadoop大数据原理与应用课件-第2章初识Hadoop(2020春).pptx

下载文档

62
0
约2.89万字
约 125页
2020-08-23 发布于陕西
举报
版权申诉
保障服务

Hadoop大数据原理与应用课件-第2章初识Hadoop(2020春).pptx

1、本文档共125页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第2章初识Hadoop《Hadoop大数据原理与应用》西安电子科技大学出版社【知识与能力要求】第2章初识Hadoop2.1 Hadoop概述2.2 Hadoop生态系统2.3 Hadoop体系架构2.4 Hadoop应用现状2.5 部署和运行Hadoop2.1 Hadoop概述Apache Hadoop于2008年1月成为Apache顶级项目。Hadoop是一个开源的、可运行于大规模集群上的分布式存储和计算的软件框架，它具有高可靠、弹性可扩展等特点，非常适合处理海量数据。Hadoop实现了分布式文件系统HDFS和分布式计算框架MapReduce等功能，被公认为行业大数据标准软件，在业内得到了广泛应用。2.1.1 Hadoop简介Hadoop是Apache基金会旗下的一个可靠的、可扩展的分布式计算开源软件框架，为用户提供了系统底层透明的分布式基础架构。Hadoop基于Java语言开发，具有很好的跨平台特性，它允许用户使用简单的编程模型在廉价的计算机集群上对大规模数据集进行分布式处理。Hadoop旨在从单一服务器扩展到成千上万台机器，每台机器都提供本地计算和存储，且将数据备份在多个节点上，由此来提升集群的高可用性，而不是通过硬件提升，当一台机器宕机时，其它节点依然可以提供数据和计算服务。2.1.1 Hadoop简介第一代Hadoop（即Hadoop 1.0）的核心由分布式文件系统HDFS和分布式计算框架MapReduce组成，为了克服Hadoop1.0中HDFS和MapReduce的架构设计和应用性能方面的各种问题，提出了第二代Hadoop（即Hadoop 2.0），Hadoop 2.0的核心包括分布式文件系统HDFS、统一资源管理和调度框架YARN和分布式计算框架MapReduce。2.1.1 Hadoop简介HDFS是谷歌文件系统GFS的开源实现，是面向普通硬件环境的分布式文件系统，适用于大数据场景的数据存储，提供了高可靠、高扩展、高吞吐率的数据存储服务。MapReduce是谷歌MapReduce的开源实现，是一种简化的分布式应用程序开发的编程模型，允许开发人员在不了解分布式系统底层细节和缺少并行应用开发经验的情况下，能快速轻松地编写出分布式并行程序，将其运行于计算机集群上，完成对大规模数据集的存储和计算。YARN是将MapReduce 1.0中JobTracker的资源管理功能单独剥离出来而形成，它是一个纯粹的资源管理和调度框架，并解决了Hadoop 1.0中只能运行MapReduce框架的限制，可在YARN上运行各种不同类型计算框架包括MapReduce、Spark、Storm等。2.1.2 Hadoop发展简史Hadoop这个名字不是单词缩写，Hadoop之父道格?卡丁（Doug Cutting）曾这样解释Hadoop名字的由来：“这个名字是我的孩子给一个棕黄色的大象玩具的取的名字。我的命名标准就是简短，容易发音和拼写，并且不会被用于别处。小孩子恰恰是这方面的高手。”2.1.2 Hadoop发展简史Hadoop起源于开源的网络有哪些信誉好的足球投注网站引擎Apache Nutch，它本身是Lucence项目的一部分。Nutch项目开始于2002年，一个可以代替当时主流有哪些信誉好的足球投注网站产品的开源有哪些信誉好的足球投注网站引擎。但后来，它的创造者Doug Cutting和Mike Cafarella遇到了棘手难题，该有哪些信誉好的足球投注网站引擎框架只能支持几亿数据的抓取、索引和有哪些信誉好的足球投注网站，无法扩展到拥有数十亿网页的网络。2003年，Google发表了论文“The Google File System”，可以解决大规模数据存储的问题。于是在2004年，Nutch项目借鉴谷歌GFS使用Java语言开发了自己的分布式文件系统，即Nutch分布式文件系统NDFS，也就是HDFS的前身。2.1.2 Hadoop发展简史2004年，Google又发表了一篇具有深远影响的论文“MapReduce: Simplifed Data Processing on Large Clusters”，阐述了MapReduce分布式编程思想。Nutch开发者们发现Google MapReduce所解决的大规模有哪些信誉好的足球投注网站引擎数据处理问题，正是他们当时面临并亟待解决的难题。于是，Nutch开发者们模仿Google MapReduce框架设计思路，使用Java语言设计并2005年初开源实现了MapReduce。2006年2月，Nutch中的NDFS和MapReduce独立出来，形成Lucence的子项目，并命名为Hadoop，同时Doug Cutting进入雅虎，雅虎为此组织了专门的团队和资源，致力于将Hadoop发展成为能够处理海量Web数据的分布式系统。2.1.2 Hadoop发展简史2007年，纽约时报把存档报