Hadoop基础知识培训 PPT.pptVIP

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Hadoop基础知识培训

2企业信息化部把信息化打造成为中国电信企业核心竞争力之一主要内容第一篇Hadoop综述·第二篇HDFS分布式文件系统第三篇MapReduce分布式计算框架·第四篇常用Hadoop组件介绍2

3企业信息化部把信息化打造成为中国电信企业核心竞争力之一第一篇Hadoop综述:什么是Hadoop:Hadoop生态系统:Hadoop的厂商:Hadoop的部署3

企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop是什么?Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署在廉价的硬件上,构建分布式系统。yMapReduce分布式计算框架允许用户在不了解分布式底层细节的情况下开发并行、分布的应用程序,利用大规模计算资源,解决传统高性能单机无法解决的大数据处理问题HadoopNutchLucene高性能全文索引工具包高性能有哪些信誉好的足球投注网站引擎工具包版本演进对应Cloudera公司的CDH3u5对应Cloudera公司的CDH44

企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop的特点Hadoop运用于海量数据处理,主要有如下几个优势:方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。5

企业信息化部把信息化打造成为中国电信企业核心竞争力之一HADOOP生态系统y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所示:6

企业信息化部把信息化打造成为中国电信企业核心竞争力之一·发展目标HADOOP生态系统(1)实时应用场景(0~5s):Storm、S4等;(2)交互式场景(5s~1m):这种场景通常能要求必须支持SQL,则可行系统有:ClouderaImpala、ApacheDrill、Shark等;(3)非交互式场景(1m~1h):通常运行时间较长,处理数据量较大,对容错性和扩展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。7

企业信息化部把信息化打造成为中国电信企业核心竞争力之一HADOOP厂商Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop厂商通过技术创新各显神通。8

大家有疑问的,可以询问和交流可以互相讨论下,但要小声点9

企业信息化部把信息化打造成为中国电信企业核心竞争力之一物理上的Hadoop集群10

企业信息化部把信息化打造成为中国电信企业核心竞争力之一逻辑部署的Hadoop集群11

企业信息化部把信息化打造成为中国电信企业核心竞争力之一简介:江西电信Hadoop批处理平台共由62台PC服务器构成,形成物理上独立的3个RACK,按照功能角色分组,主控节点、数据节点、Hive接入节点、元数据节点、监控告警节点和ETL节点。主控节点6台(2台Namenode、1台Jobtracker、3台Zookeeper)数据节点56台江西电信物理部署的Hadoop集群12

12企业信息化部把信息化打造成为中国电信企业核心竞争力之一第二篇HDFS一:HDFS简介二:HDFS架构三:漫画HDFS之读写机制四:漫画HDFS之容错性五:漫画HDFS之复制策略13

企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 HDFS简介HDFS(HADOOPDISTRIBUTED),是一个分布式文件系统。它是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案14

企业信息化部把信息化打造成为中国电信企业核心竞争力之一2HDFS架构Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在

文档评论(0)

ppptttt6774 + 关注
实名认证
文档贡献者

2222

1亿VIP精品文档

相关文档