Hadoop基础教程—光环大数据培训.pdf

下载文档

86
0
约3.13千字
约 5页
2017-07-18 发布于湖北
举报
版权申诉
保障服务

Hadoop基础教程—光环大数据培训.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《Hadoop 基础教程》 Hadoop 一直是我想学习的技术，正巧最近项目组要做电子商城，我就开始研究 Hadoop ，虽然最后鉴定Hadoop 不适用我们的项目，但是我会继续研究下去，技多不压身。《Hadoop 基础教程》是我读的第一本 Hadoop 书籍，当然在线只能试读第一章，不过对 Hadoop 历史、核心技术和应用场景有了初步了解。  Hadoop 历史雏形开始于 2002 年的Apache 的 Nutch ，Nutch 是一个开源 Java 实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具。包括全文有哪些信誉好的足球投注网站和 Web 爬虫。随后在2003 年 Google 发表了一篇技术学术论文谷歌文件系统（GFS ）。GFS 也就是 google File System ，google 公司为了存储海量有哪些信誉好的足球投注网站数据而设计的专用文件系统。 2004 年 Nutch 创始人 Doug Cutting 基于 Google 的 GFS 论文实现了分布式文件存储系统名为 NDFS。 2004 年 Google 又发表了一篇技术学术论文 MapReduce。MapReduce 是一种编程模型，用于大规模数据集（大于 1TB ）的并行分析运算。 2005 年 Doug Cutting 又基于 MapReduce ，在Nutch 有哪些信誉好的足球投注网站引擎实现了该功能。 2006 年，Yahoo 雇用了 Doug Cutting ，Doug Cutting 将 NDFS 和 MapReduce 升级命名为 Hadoop ，Yahoo 开建了一个独立的团队给 Goug Cutting 专门研究发展 Hadoop。不得不说 Google 和 Yahoo 对 Hadoop 的贡献功不可没。  Hadoop 核心想拿高薪，选对行业很重要！学大数据开发，工资高，前景好，发展空间大！ Hadoop 的核心就是 HDFS 和 MapReduce ，而两者只是理论基础，不是具体可使用的高级应用，Hadoop 旗下有很多经典子项目，比如 HBase、Hive 等，这些都是基于 HDFS 和 MapReduce 发展出来的。要想了解 Hadoop ，就必须知道HDFS 和 MapReduce 是什么。  HDFS HDFS （Hadoop Distributed File System ，Hadoop 分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set ）的应用程序。 HDFS 的设计特点是： 1、大数据文件，非常适合上T 级别的大文件或者一堆大数据文件的存储，如果文件只有几个 G 甚至更小就没啥意思了。 2、文件分块存储，HDFS 会将一个完整的大文件平均分块存储到不同计算器上，它的意义在于读取文件时可以同时从多个主机取不同区块的文件，多主机读取比单主机读取效率要高得多得都。 3、流式数据访问，一次写入多次读写，这种模式跟传统文件不同，它不支持动态改变文件内容，而是要求让文件一次写入就不做变化，要变化也只能在文件末添加内容。 4、廉价硬件，HDFS 可以应用在普通 PC 机上，这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。 5、硬件故障，HDFS 认为所有计算机都可能会出问题，为了防止某个主机失效读取不到该主机的块文件，它将同一个文件块副本分配到其它某几个主机上，如果其中一台主机失效，可以迅速找另一块副本取文件。 HDFS 的关键元素：想拿高薪，选对行业很重要！学大数据开发，工资高，前景好，发展空间大！ Block ：将一个文件进行分块，通常是64M。 NameNode ：保存整个文件系统的目录信息、文件信息及分块信息，这是由唯一一台主机专门保存，当然这台主机如果出错，NameNode 就失效了。在 Hadoop2.*开始支持 activity-standy 模式如果主 NameNode 失效，启动备用主机运行 NameNode。 DataNode ：分布在廉价的计算机上，用于存储Block 块文件。  MapReduce 通俗说 MapReduce 是一套从海量·源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容