网站大量收购闲置独家精品文档,联系QQ:2885784924

Hadoo---介绍.pptx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoo---介绍

引言 古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多的计算机系统。 -----格蕾·霍珀 Hadoop—介绍 大数据技术需要解决的难题 什么是Hadoop及其由来 Hadoop生态坏境介绍 Hadoop YARN基本构架 Hadoop的实际应用 不同Hadoop版本间的比较 一、大数据技术需要解决的难题 海量数据如何存储? 海量数据如何处理? 1. 海量数据如何存储? 海量数据的存储问题也不是今天才有的,很早以前就出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储 D:\software E:\aa\bb F:\dd\cc E:\images Software Tools Film Music I.local\public I.local\public Software Tools Film Music NFS系统构架 缺点:海量数据分析方面不能够充分利用多台计算机同时进行分析 2. 海量数据如何计算? 对日志中的每一个用户的流量进行汇总就和,如下图所示: 一个实际的需求场景—日志分析 对于这样的一个日志文件,如果只有这么几行数据,我们一般会采用这样的处理方式:     1、读取一行日志     2、抽取手机号和流量字段     3、累加到HashMap中     4、遍历输出结果   那么问题来了,如果数据量变得很大呢,比如一个日志文件里面有几个GB数据。 1、如果仍然一行一行去读,那么就会因为磁盘的IO瓶颈导致效率太低,速度太慢。 2、如果一次性加载到内存,那么就会因为单台计算机的内存空间有限而导致内存溢出。 3、如果将中间结果全部缓存到HashMap中,那么也会因为单台计算机的内存空间有限而导致内存溢出。 4、可以选择采用多线程处理,但是依然无法改变资源瓶颈的现实,因为一台计算器的CPU资源,内存资源,磁盘IO瓶颈是定,创建再多的线程也无法改变这个现实。 解决思路一 优点:     简单易行 缺点:     1、单台计算机的扩展空间有限,CPU、内存、磁盘再怎么扩展也是有限的,无法无限扩展。     2、成本高(高端服务器非常昂贵,几百万甚至上千万一台,一般的小公司承受不起这样高昂的成本) 纵向扩展:也就是升级硬件,提高单机性能(增加内存,增强CPU、用更高性能的磁盘(如固态硬盘)),比如可以购买IBM的高端服务器。 解决思路二 横向扩展: 用多台节点分布式集群处理 (通过增加节点数量提高处理能力,这里说的节点指的就是一台计算机) 核心思想:任务分摊,通过协作来实现单节点无法实现的任务。   优点:     1、成本相对低(可采用普通机器)     2、易于线性扩展   缺点:     系统复杂度增加,我们要将我们的web应用部署到每一个节点上面,而多个节点协同工作时就要考虑以下几个问题       1、如何调度资源       2、任务如何监控       3、中间结果如何调度       4、系统如何容错       5、如何实现众多节点间的协调     分布式计算的复杂性就体现在这样的5个问题里面。 Hadoop—介绍 大数据技术需要解决的难题 什么是Hadoop及其由来 Hadoop生态坏境介绍 Hadoop YARN基本构架 Hadoop的实际应用 不同Hadoop版本间的比较 二、什么是Hadoop? Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。 Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。 Hadoop就是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的5个技术难题的。 Hadoop的由来 Google 云计算 GFS MapReduce BigTable Chubby GFS  HDFS MapReduce  Hadoop BigTable  HBase  Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子 项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File Sy

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档