- 1、本文档共80页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算与数据中心建设 - Hadoop概述
Hadoop
目录
l概述
llMapMapRReduceeduce
lHDFS
lHbase
概述
数据!
各行各业都在经历着数据大爆炸的时代!
纽约证交所每天产生的交易数据达1TB
FaceBook 网站每周上传约10亿张60TB照片
日内瓦的大型强子对撞机每年产生15PB数据
个人数据的产生量更是前所未有的增长
自己拍摄的照片,录制的视频,电话,邮件等
机器产生的数据比人多
物联网:货物上的RFID标签,车载GPS跟踪定位
智慧星球:遍布各处的摄像头,空气质量检测器
数据规模完胜优秀算法
不论算法有多好,更大的数据规模总能带来更好的统计
分析结果
数据存储与分析
磁盘容量在激增
1990年一块磁盘可存储1.37GB的数据
2010年一块磁盘可存储1TB的数据
磁盘存取速度并未与时俱进
1990年磁盘的存取速度为4.4MB/s
2010年磁盘的存取速度约100MB/s
数据传输速度成为性能的常见瓶颈
1990年只要5分钟就可以读完整个磁盘的数据
2010年需要150分钟才能读完整个磁盘的数据
数据的并行访问
数据的并行访问成为当务之急
如果
• 用100个磁盘,每个磁盘存储1%的数据,不到2分钟就可以读完
• 有100个用户共享这100个磁盘,不考虑用户之间的干扰的前提下
,每个用户都可以获得并行访问带来的高性能,总体来看也没有
磁盘空间的浪费
但是
• 使用多个硬件时,任一硬件发生故障的概率将非常高,系统需要
保留数据的冗余备份。例如RAID和HDFS分别使用不同的方法实
现这一功能
• 使用多个磁盘上的数据源进行整体分析的时候,需要保证分析的
正确性。例如MapReduce就是这样的一个编程框架
Hadoop就是一个提供可靠的共享存储与分析的系统
• HDFS负责存储
• MapReduce负责分析
Hadoop的核心组件
Hadoop本身是一个分布式系统基础架构,由Apache
基金会开发,可以在用户不了解分布式底层细节的
情况下开发分布式程序。
Hadoop实现了一个分布式文件系统 (Hadoop
Distributed File System),简称HDFS 。HDFS有着
Distributed File System),简称HDFS 。HDFS有着
高容错性的特点,用来部署在低端硬件上。提供对
应用数据高吞吐量的访问。相当于开源版的Google
File System 。
在分布式文件系统之上,Hadoop实现了一个在计算
机集群上进行分布式大数据集合处理的软件框架叫
做MapReduce方法。相当于开源版的Google
MapReduce
Hadoop的基本特征
Hadoop假设计算节点和存储节点会随时失效,因此
维护了多个工作副本及数据副本以确保能够针对失
效的节点重新进行分布式处理。
Hadoop以并行的方式工作,通过并行处理加快处理
速度,能够处理PB 的海量数据。
Hadoop的长处在于海量非结构化的处理,适用的应
用模式为一次写入反复读取。
Hadoop不擅长的领域在于小文件的存储,以及大量
随机读取的应用模式,此外由于Hadoop架构采用了
放松一致性的数据模型,因此无法像采用了强一致
性数据模型的关系型数据库那样处理结构化数据。
Hadoop的生态圈
Apache Chukwa是一个基于HDFS和MapReduce框架的分布式监控系统,包括数
据收集分析和展现。
Apache ZooKeeper提供分布式环境下高可靠系统的开发与维护,相当于开源版的
Google Chubby
Apache Cassandra是一个为部署在低端硬件设备或云基础架构上的关键业务数据
提供高扩展性,高可用性以及高性能的数据库系统
Apache Hb
文档评论(0)