- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoo---介绍
引言
古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多的计算机系统。
-----格蕾·霍珀
Hadoop—介绍
大数据技术需要解决的难题
什么是Hadoop及其由来
Hadoop生态坏境介绍
Hadoop YARN基本构架
Hadoop的实际应用
不同Hadoop版本间的比较
一、大数据技术需要解决的难题
海量数据如何存储?
海量数据如何处理?
1. 海量数据如何存储?
海量数据的存储问题也不是今天才有的,很早以前就出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储
D:\software
E:\aa\bb
F:\dd\cc
E:\images
Software
Tools
Film
Music
I.local\public
I.local\public
Software
Tools
Film
Music
NFS系统构架
缺点:海量数据分析方面不能够充分利用多台计算机同时进行分析
2. 海量数据如何计算?
对日志中的每一个用户的流量进行汇总就和,如下图所示:
一个实际的需求场景—日志分析
对于这样的一个日志文件,如果只有这么几行数据,我们一般会采用这样的处理方式: 1、读取一行日志 2、抽取手机号和流量字段 3、累加到HashMap中 4、遍历输出结果
那么问题来了,如果数据量变得很大呢,比如一个日志文件里面有几个GB数据。
1、如果仍然一行一行去读,那么就会因为磁盘的IO瓶颈导致效率太低,速度太慢。
2、如果一次性加载到内存,那么就会因为单台计算机的内存空间有限而导致内存溢出。
3、如果将中间结果全部缓存到HashMap中,那么也会因为单台计算机的内存空间有限而导致内存溢出。
4、可以选择采用多线程处理,但是依然无法改变资源瓶颈的现实,因为一台计算器的CPU资源,内存资源,磁盘IO瓶颈是定,创建再多的线程也无法改变这个现实。
解决思路一
优点:
简单易行 缺点:
1、单台计算机的扩展空间有限,CPU、内存、磁盘再怎么扩展也是有限的,无法无限扩展。
2、成本高(高端服务器非常昂贵,几百万甚至上千万一台,一般的小公司承受不起这样高昂的成本)
纵向扩展:也就是升级硬件,提高单机性能(增加内存,增强CPU、用更高性能的磁盘(如固态硬盘)),比如可以购买IBM的高端服务器。
解决思路二
横向扩展: 用多台节点分布式集群处理 (通过增加节点数量提高处理能力,这里说的节点指的就是一台计算机)
核心思想:任务分摊,通过协作来实现单节点无法实现的任务。
优点:
1、成本相对低(可采用普通机器)
2、易于线性扩展
缺点:
系统复杂度增加,我们要将我们的web应用部署到每一个节点上面,而多个节点协同工作时就要考虑以下几个问题 1、如何调度资源 2、任务如何监控 3、中间结果如何调度 4、系统如何容错 5、如何实现众多节点间的协调
分布式计算的复杂性就体现在这样的5个问题里面。
Hadoop—介绍
大数据技术需要解决的难题
什么是Hadoop及其由来
Hadoop生态坏境介绍
Hadoop YARN基本构架
Hadoop的实际应用
不同Hadoop版本间的比较
二、什么是Hadoop?
Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。
Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。
Hadoop就是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的5个技术难题的。
Hadoop的由来
Google 云计算
GFS
MapReduce
BigTable
Chubby
GFS HDFS
MapReduce Hadoop
BigTable HBase
Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子 项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File Sy
您可能关注的文档
- GB8109-005-推车式灭火器.pdf
- GB8898-2011音频及类似电子设备的安全.ppt
- GBT-228.12002金属材料-室温拉伸试验方法.ppt
- GBT1.1-2009-标准化工作导则-第1部分:标的结构和编写-讲座-马素青.ppt
- gbt307.1滚、向心轴承-公差.pdf
- GBT228.1-2010-金属材料室温伸试验方法细节.ppt
- GBT-31467.3测注意事项.pptx
- GBT12452-2008企业水平测试通则.doc
- GBZT-298-2017工作场所化学害因素职业健康风险评估技术导则.doc
- GC-MSGC-结合化学计量学方法研究不同产地阿胶的关键香气组分.pdf
- 2025届衡阳市第八中学高三一诊考试物理试卷含解析.doc
- 2025届湖南省娄底市双峰一中等五校重点中学高三第二次诊断性检测物理试卷含解析.doc
- 天水市第一中学2025届高三第二次联考物理试卷含解析.doc
- 2025届金华市重点中学高三考前热身物理试卷含解析.doc
- 2025届北京市石景山区第九中学高三第四次模拟考试物理试卷含解析.doc
- 江苏扬州市2025届高三第一次模拟考试物理试卷含解析.doc
- 2025届江苏省南通市高级中学高考物理五模试卷含解析.doc
- 广东省清远市华侨中学2025届高三第一次调研测试物理试卷含解析.doc
- 辽宁省凤城市2025届高三第五次模拟考试物理试卷含解析.doc
- 内蒙古巴彦淖尔市重点中学2025届高考仿真卷物理试卷含解析.doc
文档评论(0)